<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 設(shè)計(jì)應(yīng)用 > 基于自適應(yīng)軟掩模的語音混合特征增強(qiáng)分析

基于自適應(yīng)軟掩模的語音混合特征增強(qiáng)分析

作者：閆澤愿(新鄉(xiāng)職業(yè)技術(shù)學(xué)院,信息工程學(xué)院,河南新鄉(xiāng) 453000) 時(shí)間：2023-08-24 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

收藏

編者按：為了提高語音混合特征增強(qiáng)效果，設(shè)計(jì)了一種以自適應(yīng)軟掩模與混合特征共同分析算法來實(shí)現(xiàn)。以混合特征分析可以消除單一梅爾域?yàn)V波器無法提供高頻特征的缺陷。研究結(jié)果表明：選擇融合相位自適應(yīng)軟掩模方式時(shí)，能夠最大程度去除背景噪聲。以本文融合相位差自適應(yīng)軟掩?？梢垣@得比IRM更顯著優(yōu)勢(shì)，經(jīng)過優(yōu)化處理的語音特征與學(xué)習(xí)目標(biāo)構(gòu)建得到的語音增強(qiáng)算法能夠促進(jìn)語音質(zhì)量的明顯提升。以自適應(yīng)軟掩模與混合特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)處理獲得優(yōu)秀的信噪比，達(dá)到更優(yōu)的算法性能。

目前，音頻處理技術(shù)獲得了眾多學(xué)者的關(guān)注與研究，相關(guān)語音處理技術(shù)也得到了開發(fā)應(yīng)用^[1-2]。例如，在開展語音增強(qiáng)時(shí)，需要根據(jù)語音特征來判斷語音信息，各項(xiàng)語音特征對(duì)應(yīng)的語音信息也存在差異，實(shí)際性能也具有明顯區(qū)別^[3]。但根據(jù)傳統(tǒng)語音特征進(jìn)行分析時(shí)，濾波器存在較大限制，并不能對(duì)人耳聽覺非線性過程達(dá)到良好匹配性，這對(duì)系統(tǒng)語音增強(qiáng)過程具有明顯阻礙^[4]。其中，梅爾濾波器組在高頻率段表現(xiàn)為更加稀疏的特點(diǎn)，由此造成高頻特征丟失的結(jié)果，按照人耳耳蝸結(jié)構(gòu)構(gòu)建的伽馬通濾波器組能夠非常準(zhǔn)確體現(xiàn)人耳基底膜結(jié)構(gòu)特征，同時(shí)實(shí)現(xiàn)優(yōu)異魯棒性能^[5,6]。

本文引用地址：http://www.ex-cimer.com/article/202308/449901.htm

根據(jù)上述研究結(jié)果，本文設(shè)計(jì)了一種以自適應(yīng)軟掩模與混合特征共同分析的算法來實(shí)現(xiàn)語音增強(qiáng)的效果。以混合特征進(jìn)行分析時(shí)，可以消除單一梅爾域?yàn)V波器無法提供高頻特征的缺陷。

1 本文方案

選擇IRM作為學(xué)習(xí)目標(biāo)時(shí)，可以根據(jù)語音能量與噪語音強(qiáng)度比例將其設(shè)置于0~1 區(qū)間內(nèi)。采用IRM 建立學(xué)習(xí)目標(biāo)時(shí)，可以獲得較小失真度的增強(qiáng)語音，同時(shí)有效消除背景殘留噪聲。關(guān)于上述傳統(tǒng)學(xué)習(xí)目標(biāo)控制情況，本文開發(fā)了一種以語音相位差實(shí)現(xiàn)的自適應(yīng)軟掩模語音增強(qiáng)方法。上述學(xué)習(xí)目標(biāo)綜合考慮了語音幅度與相位差，能夠?qū)栴}形成更深刻的理解。

以混合特征組成深度神經(jīng)網(wǎng)絡(luò)輸入，再以融合相位

參數(shù)的自適應(yīng)軟掩模來實(shí)現(xiàn)語音增強(qiáng)的效果。此算法由訓(xùn)練與測試2個(gè)過程構(gòu)成，從圖1 中可以看到包含混合特征與融合相位的系統(tǒng)框圖。

圖1 本文語音增強(qiáng)算法系統(tǒng)

1.1 訓(xùn)練階段訓(xùn)練階段

第1 步先對(duì)純凈語音、信號(hào)噪聲、含噪語音實(shí)施預(yù)處理，之后利用Gammatone 濾波器對(duì)上述音頻信號(hào)開展時(shí)頻分解，由此獲得耳蝸值。進(jìn)行反向調(diào)優(yōu)時(shí)采用最小均方誤差法進(jìn)行處理，結(jié)果見式（1）：

（1）

式中，V_soft(t,f)與_soft(t,f) 分別對(duì)應(yīng)第t 幀與第f 頻帶最優(yōu)時(shí)頻掩蔽參數(shù)與采用網(wǎng)絡(luò)模型估計(jì)得到的輸出結(jié)果，T 為語音幀的總數(shù)量。

1.2 測試階段測試階段

先提取獲得語音特征參數(shù)，再將其輸入神經(jīng)網(wǎng)絡(luò)模型內(nèi)，并根據(jù)網(wǎng)絡(luò)模型確定學(xué)習(xí)目標(biāo)。綜合考慮測試集含噪語音特征與時(shí)頻掩蔽值確定增強(qiáng)語音特征，最終利用含噪相位完成語音數(shù)據(jù)的重構(gòu)。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)的選取

為了對(duì)本文混合特征與自適應(yīng)軟掩模過程的性能特點(diǎn)進(jìn)行驗(yàn)證，從IEEE 語音數(shù)據(jù)庫內(nèi)選出90 條獨(dú)立語音，信號(hào)頻率保持一致。按照同樣信噪比對(duì)剩余20 條純凈語音與噪聲后半段進(jìn)行混合處理形成測試集。

2.2 對(duì)比實(shí)驗(yàn)分析

根據(jù)表1給出的對(duì)比算法對(duì)本文混合與學(xué)習(xí)目標(biāo)進(jìn)行有效性測試。

表1 對(duì)比實(shí)驗(yàn)內(nèi)容及其編號(hào)

以對(duì)比算法1 進(jìn)行處理是為了對(duì)本文混合特征性能優(yōu)異性進(jìn)行驗(yàn)證，根據(jù)對(duì)比算法2 與3 可知，本文建立的融合相位自適應(yīng)軟掩模能夠滿足有效性要求。為實(shí)現(xiàn)對(duì)本文算法性能的更直觀判斷，將語音置于Factory 噪聲環(huán)境中，控制信噪比為5 dB 條件下獲得增強(qiáng)算法時(shí)域波形。

為綜合分析本文算法的實(shí)際處理性能，設(shè)置了PESQ 與STOI 兩個(gè)指標(biāo)對(duì)混合特征與自適應(yīng)軟掩模進(jìn)行有效性驗(yàn)證，得到表2~4 中在不同噪聲與信噪比環(huán)境中的PESQ 與STOI。根據(jù)表2 可知，帶噪語音信噪比為-5dB 的情況下，算法1 與2 顯示，對(duì)于各噪聲條件，PESQ 值提升了0.11 的均值水平，STOI 值則獲得了0.02的提升。會(huì)與算法2、3 相比，PESQ 值提升了0.21，同時(shí)STOI 提升了0.02。

表2 信噪比為-5dB的性能對(duì)比

根據(jù)表3 可知，帶噪語音信噪比為0dB 的條件下，各噪聲下的PESQ 值都提升達(dá)到0.18，STOI 值提升了0.01。與算法2、3 相比，PESQ 值提升了0.16，同時(shí)STOI 提升了0.01。

表3 信噪比為0dB的性能對(duì)比

對(duì)表4 進(jìn)行分析可知，設(shè)置帶噪語音信噪比5dB 的條件下，各種噪聲下的PESQ 值都提升了近0.12，此時(shí)STOI 值提升了0.01。PESQ 值提升0.16，STOI 指標(biāo)提升0.01。

表4 信噪比為5dB的性能對(duì)比

綜合分析表2~4 中各項(xiàng)參數(shù)得到以下結(jié)果：

1）對(duì)比算法1 與2 結(jié)果可知，混合特征增強(qiáng)語音屬于單特征MFCC，在所有信噪比與噪聲環(huán)境中，PESQ 值都提升了0.14，同時(shí)STOI 提升了0.01。根據(jù)算法1 與2 結(jié)果可以判斷本文設(shè)計(jì)的混合特征具備明顯優(yōu)勢(shì)，對(duì)提升語音質(zhì)量發(fā)揮著關(guān)鍵作用。

2）通過對(duì)比算法2 與3 結(jié)果可以發(fā)現(xiàn)，以本文融合相位差自適應(yīng)軟掩?？梢垣@得比IRM 更顯著優(yōu)勢(shì)，對(duì)于本文信噪比與噪聲環(huán)境，增強(qiáng)語音PESQ 值提升了0.18，同時(shí)提升了0.01 的 STOI。算法2 與3 表明采用本文融合相位差自適應(yīng)軟掩模能夠在獲得更優(yōu)增強(qiáng)語音質(zhì)量的條件下改善可懂度。

3）比較算法1 與3 測試結(jié)果可知，經(jīng)過優(yōu)化處理的語音特征與學(xué)習(xí)目標(biāo)構(gòu)建得到的語音增強(qiáng)算法能夠促進(jìn)語音質(zhì)量的明顯提升。增強(qiáng)語音PESQ 值提升0.32，STOI 提升了0.03。表明本文設(shè)計(jì)的算法具備明顯優(yōu)勢(shì)。

為準(zhǔn)確分析實(shí)驗(yàn)結(jié)果，將各算法對(duì)應(yīng)的PESQ 與STOI 均值具體見圖2 與圖3。從以上結(jié)果中可以推斷本文設(shè)計(jì)的混合特征與融合相位自適應(yīng)軟掩模具備明顯優(yōu)越性。

圖2 給出了各信噪比下以不同算法獲得的增強(qiáng)語音PESQ 均值，結(jié)果發(fā)現(xiàn)，以自適應(yīng)軟掩模與混合特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)處理獲得的各信噪比PESQ 均值都超過其余兩種算法。由此表明采用本文經(jīng)過改進(jìn)后的語音特征與目標(biāo)達(dá)到更優(yōu)的算法性能。

圖2 不同信噪比下增強(qiáng)語音PESQ平均值

圖3給出了各信噪比下以不同算法獲得的增強(qiáng)語音STOI均值，對(duì)圖3進(jìn)行分析可以發(fā)現(xiàn)，選擇自適應(yīng)軟掩模與混合特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行處理時(shí)獲得的各個(gè)信噪比下的STOI值達(dá)到了最大。因此采用本文設(shè)計(jì)的混合特征能夠?qū)φZ音特性達(dá)到更準(zhǔn)確評(píng)價(jià)的效果，并且利用融合相位差的自適應(yīng)軟掩模能夠?qū)r(shí)頻單元掩蔽結(jié)果進(jìn)行準(zhǔn)確評(píng)估。通過上述兩者的結(jié)合后能夠在獲得更優(yōu)增強(qiáng)語音質(zhì)量的條件下進(jìn)一步促進(jìn)可懂度的提高。

圖3 不同信噪比下增強(qiáng)語音STOI平均值

3 結(jié)束語

1）選擇融合相位自適應(yīng)軟掩模方式時(shí)，能最大程度去除背景噪聲，滿足有效性要求。

2）經(jīng)過優(yōu)化處理的語音特征與學(xué)習(xí)目標(biāo)構(gòu)建得到的語音增強(qiáng)算法能夠促進(jìn)語音質(zhì)量提升。

3）以自適應(yīng)軟掩模與混合特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)處理獲得的各信噪比PESQ和STOI值都超過其余兩種算法，采用本文經(jīng)過改進(jìn)后的語音特征與目標(biāo)達(dá)到更優(yōu)的算法性能。

參考文獻(xiàn)：

[1] 李如瑋,孫曉月,李濤.基于冪函數(shù)壓縮梅爾倒譜系數(shù)和掩膜后處理的多目標(biāo)學(xué)習(xí)語音增強(qiáng)算法[J].電子與信息學(xué)報(bào),2021,43:1-8.

[2] 孫坤倫,夏秀渝,孫文慧.基于聽覺掩蔽效應(yīng)的改進(jìn)型維納濾波算法[J].計(jì)算機(jī)與網(wǎng)絡(luò),2020,46(13):4.

[3] 葛宛營,張?zhí)祢U.基于掩蔽估計(jì)與優(yōu)化的單通道語音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2019,39(10): 6.

[4] 鮑長春,項(xiàng)揚(yáng).基于深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法回顧[J].信號(hào)處理,2019,35(12):11.

[5] 李鴻燕,屈俊玲,張雪英.基于信號(hào)能量的濁語音盲信號(hào)分離算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2015,(5):6.

[6] 李如瑋,孫曉月,李濤.基于冪函數(shù)壓縮梅爾倒譜系數(shù)和掩膜后處理的多目標(biāo)學(xué)習(xí)語音增強(qiáng)算法[J].電子與信息學(xué)報(bào),2021,43:1-8.

（本文來源于《電子產(chǎn)品世界》雜志2023年8月期）

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 202308 語音增強(qiáng) 自適應(yīng)軟掩模 DNN 混合特征

評(píng)論

相關(guān)推薦

基于RK3588的8K無線投屏系統(tǒng)軟硬件設(shè)計(jì)

消費(fèi)電子 202308 無線投屏 8路投屏混合投屏 RK3588 RTL88222CU | 2023-08-25

對(duì)?？礕igE相機(jī)以Python程序連接方法的研究

202308 GigE接口 Python 通信 | 2023-08-26

居家養(yǎng)老視角下老人過久離床監(jiān)測系統(tǒng)設(shè)計(jì)

醫(yī)療電子 202308 居家養(yǎng)老睡眠監(jiān)測變異系數(shù) 過久離床 SOS 健康預(yù)警 | 2023-08-25

基于ESP32S3的智能家居控制面板系統(tǒng)設(shè)計(jì)

202308 ESP32S3 智能家居控制面板 WiFi 語音 | 2023-08-26

適用于手語采集與輸入的智能手套及翻譯系統(tǒng)

202308 手勢(shì)識(shí)別 ESP32 彎曲傳感器 SVM 神經(jīng)網(wǎng)絡(luò) | 2023-08-24

基于單Wi-Fi模塊的STA+P2P+AP共存方案

?202308 Wi-Fi STA P2P AP 共存 | 2023-08-26

基于自適應(yīng)軟掩模的語音混合特征增強(qiáng)分析

202308 語音增強(qiáng) 自適應(yīng)軟掩模 DNN 混合特征 | 2023-08-24

基于類別圖增強(qiáng)算法的融合異構(gòu)數(shù)據(jù)會(huì)話推薦分析

智能計(jì)算 202308 會(huì)話推薦類別圖增強(qiáng)算法異構(gòu)數(shù)據(jù) 全局表征 | 2023-08-24

一種多門限過零率前端檢測理論的參數(shù)自優(yōu)化方法研究

資源下載多門限過零率前端檢測語音增強(qiáng) SPEC061A | 2007-04-19

基于麥克風(fēng)陣列的語音增強(qiáng)和定位系統(tǒng)

資源下載語音增強(qiáng) 定位 | 2010-07-19

基于RK3588的云電腦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

消費(fèi)電子 202308 云電腦 RK3588 RTL8822CU | 2023-08-25

基于ELM改進(jìn)K-SVD算法的多特征融合物體成像識(shí)別

智能計(jì)算 202308 K-SVD算法算法改進(jìn) 圖像識(shí)別 | 2023-08-22

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();