《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 融合CNN和Transformer編碼器的變聲語音鑒別與還原
融合CNN和Transformer編碼器的變聲語音鑒別與還原
信息技術(shù)與網(wǎng)絡(luò)安全 1期
魏春雨,孫 蒙,劉 偉,張星昱
(陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京210007)
摘要: 語音變聲偽裝會(huì)導(dǎo)致人耳感知和聲紋識(shí)別出現(xiàn)錯(cuò)誤,從而達(dá)到隱匿說話人真實(shí)身份的目的。為削弱變聲語音的影響,提出一種融合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和Transformer編碼器的模型,提取變聲語音的局部特征和全局特征用于判別變聲因子,并根據(jù)變聲因子的數(shù)值實(shí)施變聲語音還原。在中英文真實(shí)場(chǎng)景錄音數(shù)據(jù)集上驗(yàn)證了所提方法的有效性,對(duì)變聲因子判別實(shí)現(xiàn)了95%以上的準(zhǔn)確率。利用所提出的方法,在黑箱條件下對(duì)某型商用硬件變聲器輸出的語音進(jìn)行鑒別與還原,取得了較好的效果。
中圖分類號(hào): TP391.9
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2022.01.008
引用格式: 魏春雨,孫蒙,劉偉,等. 融合CNN和Transformer編碼器的變聲語音鑒別與還原[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(1):47-54.
Identification and restoration of transformed voice by fusing CNN and Transformer encoder
Wei Chunyu,Sun Meng,Liu Wei,Zhang Xingyu
(College of Command and Control Engineering,Army Engineering University of PLA,Nanjing 210007,China)
Abstract: Voice transformation will lead to errors in auditory perception and speaker recognition so as to conceal the speaker′s real identity. In order to reduce the negative impact of transformed voice, a model fusing Convolutional Neural Networks(CNN) and Transformer encoder was proposed in this paper, which extracted local and global features of transformed voice to predict the disguise factor, and restored the original voice according to the value of the disguise factor. The validity of the proposed method was verified on datasets of both Chinese and English recorded in real-world scenes, where the accuracy was higher than 95%. Under the condition of black box, the proposed method had good performance when identifying and restoring the output voice of a commercial hardware of voice changer.
Key words : pitch scaling;voice anti-disguise;voice restoration;time-frequency features

0 引言

近年來,基于指紋、人臉、虹膜、聲紋的生物特征識(shí)別技術(shù)得到了迅速發(fā)展[1]。其中,聲紋識(shí)別[2]以其采集方便、無需直接接觸、可體現(xiàn)說話人的主觀意圖等優(yōu)點(diǎn),被廣泛應(yīng)用于身份認(rèn)證、刑事偵查等領(lǐng)域。公安部門可以通過提取犯罪嫌疑人的聲紋信息,將其與數(shù)據(jù)庫中的聲紋信息進(jìn)行比對(duì),進(jìn)而確認(rèn)嫌疑人的真實(shí)身份。然而,這種確認(rèn)經(jīng)常受到各種因素的干擾,其中語音變聲偽裝就可以通過隱匿說話人的身份,降低聲紋確認(rèn)的效果。

與通過壓低嗓音、捏鼻子等方式物理干擾人的發(fā)聲器官進(jìn)行的語音偽裝不同,語音變聲偽裝是利用變聲工具對(duì)語音參數(shù)進(jìn)行修改實(shí)現(xiàn)變聲[3]。目前,各種硬件變聲設(shè)備和變聲軟件在匿名采訪、網(wǎng)絡(luò)聊天、電子游戲等場(chǎng)景中得到了廣泛應(yīng)用。同時(shí),一些不法分子利用變聲語音進(jìn)行違法犯罪活動(dòng),對(duì)案件的偵破造成了干擾。相比通過物理干擾發(fā)聲器官而產(chǎn)生的偽裝語音,變聲語音更加難以辨認(rèn)。變聲工具會(huì)改變語音的頻譜結(jié)構(gòu),進(jìn)而影響聲紋識(shí)別模型對(duì)說話人的驗(yàn)證[4-5]。有研究表明,向普通人播放經(jīng)過變聲偽裝的語音,甚至不能準(zhǔn)確地判斷出說話人的性別。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.rjjo.cn/resource/share/2000003936






作者信息:

魏春雨,孫  蒙,劉  偉,張星昱

(陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京210007)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 玖玖精品在线视频 | 美女被拍拍拍拍拍拍拍拍 | 男操女视频 | 国产三级网 | 精品色视频| 18性欧美69| 美国毛片毛片全部免费 | 欧美色偷偷 | 欧美一做特黄毛片 | 九九99久麻豆精品视传媒 | 男人毛片 | 中日韩精品视频在线观看 | 亚洲一区二区三区中文字幕 | 女人张开腿男人猛桶视频 | 小草青青神马影院 | 亚洲的天堂 | 久久精品99毛片免费 | 国产精品视频自拍 | 五月色婷婷综合开心网4438 | 久久99爰这里有精品国产 | 欧美日韩 在线播放 | 久久91精品国产91久久小草 | 国产亚洲片 | 色悠久久久久综合网伊人男男 | 91视频国产91久久久 | 久久一区二区三区99 | 国产精品免费观看视频播放 | 97公开免费视频 | 国产三级在线视频观看 | 亚洲国产品综合人成综合网站 | 国产精品blacked在线 | 京野结衣免费一区二区 | 亚洲午夜精品 | 亚洲欧美在线观看 | 久久国产精品二区99 | 免费三级网址 | 午夜67194 | 91网站网站网站在线 | 国产成人精品三区 | 美日韩一级 | 欧美一级α片毛片免费观看 |