基于聯(lián)合損失函數(shù)的語音增強深度學(xué)習(xí)算法
DNN 根據(jù)獲取的語音特征對學(xué)習(xí)目標(biāo)參數(shù)進(jìn)行準(zhǔn)確估計,目前已被廣泛應(yīng)用于語音增強的研究中[1-2]。各類聲學(xué)特征也對語音增強方面存在差異。根據(jù)傳統(tǒng)語音特征進(jìn)行分析并不能充分反饋語音內(nèi)部信息,也不能獲得音幀和幀快速轉(zhuǎn)換的結(jié)果,因此該模型并不能準(zhǔn)確預(yù)測時頻掩蔽結(jié)果,導(dǎo)致實際語音增強性能較差[3-4]。在背景噪聲濾除方面,時頻掩模值發(fā)揮著關(guān)鍵作用,以常規(guī)時頻掩模值進(jìn)行處理時并未針對語音相位進(jìn)行分析,語音相位譜則對改善語音可懂性具有關(guān)鍵作用[5]。
本文引用地址:http://www.ex-cimer.com/article/202307/448398.htm根據(jù)上述研究結(jié)果,本文優(yōu)化了以語音增強實現(xiàn)的網(wǎng)絡(luò)模型與損失函數(shù)[6]。為確保代價函數(shù)能夠根據(jù)人耳感知特點開展分析過程,在上述基礎(chǔ)上設(shè)計了一種聯(lián)合損失函數(shù)。針對損失函數(shù)計算過程加入關(guān)于人耳聽覺的數(shù)據(jù)。
進(jìn)行深度學(xué)習(xí)時,需要利用均方誤差損失函數(shù)(MSE)對神經(jīng)網(wǎng)絡(luò)實施優(yōu)化處理,而MSE 只對增強語音與純凈語音誤差進(jìn)行簡單數(shù)據(jù)分析,并未考慮誤差正負(fù)因素的影響,也未加入人耳感知的信號。此時只以MSE 構(gòu)建損失函數(shù)不能確保增強語音達(dá)到理想的算法處理效果[7]。
采用頻域加權(quán)分段的信噪分析方法可以對語音可懂度進(jìn)行預(yù)測。以下為頻域加權(quán)分段信噪比表達(dá)式:
(1)
式中,L 表示時頻信號幀數(shù),K 表示頻帶數(shù),x(I,k)是第 l 幀第 k 個頻帶中包含的純凈語音信號幅度,屬于第 l 幀第 k 個頻帶包含噪聲語音的幅度譜,W(I,k)為作用于各時頻單元幅度譜的感知權(quán)重系數(shù)。
本文從語音信噪比特征出發(fā),對以上函數(shù)實施動態(tài)結(jié)合,由此得到聯(lián)合優(yōu)化代價函數(shù)。建立了動態(tài)系數(shù):
a(I,k)= (2)
上述系數(shù)與時頻單元信噪比存在直接關(guān)聯(lián),SNR(l,k) 表示第l 幀第k 個頻帶對應(yīng)的信噪比數(shù)據(jù),同時根據(jù)各時頻單元信噪比獲得相應(yīng)的動態(tài)系數(shù),處于較高信噪比條件下時,動態(tài)系數(shù)接近1。
在聯(lián)合代價函數(shù)中融合了人耳心理聲學(xué)感知的內(nèi)容[8],以此訓(xùn)練網(wǎng)絡(luò)來實現(xiàn)性能優(yōu)化的目標(biāo),在確保提升話音質(zhì)量的前提下使增強話音具備更高可懂度。
2 基于聯(lián)合損失函數(shù)的語音增強算法
以聯(lián)合損失函數(shù)建立語音增強算法經(jīng)多次重復(fù)訓(xùn)練后,能夠從含噪語音幅度譜內(nèi)獲得估計增強語音幅度譜。圖1給出了系統(tǒng)框圖。
圖1 基于聯(lián)合損失函數(shù)的語音增強算法系統(tǒng)框圖
時頻掩蔽因素是對神經(jīng)網(wǎng)絡(luò)產(chǎn)生影響而引起語音增強性能差異的重要條件,采用傳統(tǒng)學(xué)習(xí)方法進(jìn)行處理時只需對語音幅度進(jìn)行分析。確定混合特征參數(shù)與學(xué)習(xí)目標(biāo)后,再對神經(jīng)網(wǎng)絡(luò)開展輸入、輸出訓(xùn)練,同時利用最小均方誤差優(yōu)化網(wǎng)絡(luò)算法。再以BP 算法反向傳遞方式完成網(wǎng)絡(luò)參數(shù)的修正。從每次訓(xùn)練的結(jié)果中選擇最優(yōu)性能的網(wǎng)絡(luò)模型進(jìn)行記錄后建立測試網(wǎng)絡(luò)模型。
本文選擇聯(lián)合損失函數(shù)對兩者差異進(jìn)行評價,記錄最優(yōu)性能的網(wǎng)絡(luò)模型參數(shù)。進(jìn)行測試時,先將含噪語音幅度譜加入經(jīng)過訓(xùn)練的模型內(nèi),之后通過模型對增強語音幅度譜進(jìn)行預(yù)測,最后以語音相位參數(shù)完成信號重構(gòu)。
3 實驗結(jié)果分析
3.1 實驗數(shù)據(jù)的選取
以上語音數(shù)據(jù)都是由IEEE 語音數(shù)據(jù)庫提供,之后從NOISEX-92 噪聲庫內(nèi)提取Pink、Factory 與White 三種噪聲信號,這些信號保持一致頻率。按照同樣信噪比把剩余50 條純凈語音與噪聲后半段進(jìn)行混合后建立測試集。
本文設(shè)定語音頻率為16 kHz,并以語音幅度譜作為輸入語音特征。各項網(wǎng)絡(luò)參數(shù)見表1。
3.2 對比實驗分析
為了對本文建立的聯(lián)合損失函數(shù)與自注意力機制進(jìn)行有效性驗證,構(gòu)建得到表2 的對比算法。
從表3~5 中可以看到各噪聲條件下的PESQ 值。其中,表3 顯示,信噪比等于-5dB 的情況下,根據(jù)算法1 與2 測試結(jié)果可以發(fā)現(xiàn),在各類噪聲條件下,PESQ值提升均值達(dá)到0.13,同時STOI 值提升了0.01 的均值水平。比較算法2 與3 可以發(fā)現(xiàn),PESQ 值提升了0.07,STOI 提升了0.01。
表4 顯示,帶噪語音信噪比等于0 dB 的條件下,根據(jù)算法1 與2 可以發(fā)現(xiàn),各噪聲下的PESQ 值都提升了0.11,此時STOI 值提升0.02。比較算法2 與3 可以發(fā)現(xiàn),PESQ 值提升0.09,STOI 提升0.01。
表5 顯示,帶噪語音信噪比等于5 dB 的情況下,比較算法1 與2 可以發(fā)現(xiàn),各噪聲下的PESQ 值提升達(dá)到0.13 的均值,STOI 值提升了0.01。根據(jù)算法2 與3的比較結(jié)果可知,PESQ 值提升0.07,STOI 提升0.01。
綜合分析表3~5 得到下述結(jié)果:
1)通過對比算法1 與2 測試結(jié)果得到:當(dāng)噪聲與信噪比都不同的情況下,以聯(lián)合損失函數(shù)實現(xiàn)的增強語音PESQ 值提高0.12,STOI 提高0.01。根據(jù)算法1 與2 可知,本文設(shè)計的混合損失函數(shù)實現(xiàn)增強語音質(zhì)量的明顯優(yōu)化。
2)對比算法2 與3 結(jié)果可以發(fā)現(xiàn),為神經(jīng)網(wǎng)絡(luò)模型設(shè)置注意力機制后,可以使增強語音PESQ 值提高0.08,STOI 提高0.01。同時根據(jù)算法2 與3 結(jié)果可以推斷,加入注意力機制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。
3)比較算法1 與3 結(jié)果可知:以聯(lián)合損失函數(shù)對神經(jīng)網(wǎng)絡(luò)開展訓(xùn)練時,同時加入自注意力機制來分析理神經(jīng)網(wǎng)絡(luò)特征的情況下能夠?qū)崿F(xiàn)增強語音質(zhì)量的顯著改善,此時PESQ 值提升0.2,STOI 提升0.03。
4 結(jié)束語
1)本文設(shè)計的混合損失函數(shù)實現(xiàn)增強語音質(zhì)量的明顯優(yōu)化。加入注意力機制后能夠促進(jìn)背景噪音的進(jìn)一步減弱,從而獲得更高可懂度。
2)綜合運用聯(lián)合損失函數(shù)并融合注意力機制后,可以使神經(jīng)網(wǎng)絡(luò)獲得更優(yōu)質(zhì)量增強語音。利用注意力機制提取特征參數(shù)以及結(jié)合聯(lián)合損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化能夠促進(jìn)增強語音質(zhì)量的提升并達(dá)到更高的可懂度。
參考文獻(xiàn):
[1] BABY D, VIRTANEN T, GEMMEKE J F. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J]. IEEE-ACM transactions on audio, speech, and language processing, 2015, 23(11):1788-1799.
[2] LI C X, DU Y J, WANG S D. Mining implicit intention using attention-based rnn encoder-decoder model[C]// International conference on intelligent computing. Springer, Cham, 2017: 413-424.
[3] 葛宛營,張?zhí)祢U.基于掩蔽估計與優(yōu)化的單通道語音增強算法[J].計算機應(yīng)用,2019, 39(10): 6.
[4] 鮑長春,項揚.基于深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強方法回顧[J].信號處理,2019,35(12): 11.
[5] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feed forward neural networks[C]. Proceedings of the thirteenth international conference on artificial intelligence and statistics, Sardinia, Italy, 2010, 5: 249-256.
[6] MARTIN-DONAS J M, GOMEZ A M, Gonzalez J A, et al. A deep learning loss function based on the perceptual evaluation of the speech quality[J]. IEEE Signal processing letters,2018, 25(11):1680-1684.
[7] 李鴻燕,屈俊玲,張雪英.基于信號能量的濁語音盲信號分離算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2015,(5): 6.
[8] 戴紅霞,唐於烽,趙力.基于維納濾波與理想二值掩蔽的數(shù)字助聽器語音增強算法[J].電子器件,2019,42(4): 4.
(本文來源于《電子產(chǎn)品世界》雜志2023年6月期)
評論