<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費(fèi)電子 > 業(yè)界動(dòng)態(tài) > 一種室內(nèi)混響語音盲分離算法*

          一種室內(nèi)混響語音盲分離算法*

          作者:曾金芳,陳 達(dá),張 鈺,李友明 (湘潭大學(xué)物理與光電工程學(xué)院,湖南 湘潭 411105) 時(shí)間:2021-05-20 來源:電子產(chǎn)品世界 收藏

          摘 要:在信號(hào)處理領(lǐng)域,室內(nèi)環(huán)境下的混響語音盲分離一直以來都是一個(gè)重點(diǎn)與難點(diǎn),主要是由于混合系統(tǒng)存在的混響和回聲嚴(yán)重影響了語音質(zhì)量,從而降低了算法分離效果。因此,本文提出了一個(gè)應(yīng)對算法,由麥克風(fēng)采集到室內(nèi)混響語音混合信號(hào)后,對該混合信號(hào)進(jìn)行兩階段處理:首先通過設(shè)計(jì)一個(gè)逆濾波器來抑制早期混響或增大信號(hào)混響能量比,再采用譜減法來消除回聲;然后將處理過的混合語音信號(hào)通過短時(shí)傅里葉變換轉(zhuǎn)化為頻域各個(gè)頻點(diǎn)的瞬時(shí)混合形式,用IVA算法分離混合語音信號(hào),最終恢復(fù)為時(shí)域語音信號(hào)。實(shí)驗(yàn)表明,該方法可以有效提高室內(nèi)混響環(huán)境下的語音盲分離效果。

          本文引用地址:http://www.ex-cimer.com/article/202105/425715.htm

          *基金項(xiàng)目:湖南省自然科學(xué)基金(2018JJ3486)

          作者簡介:曾金芳,女,碩導(dǎo),博士,主要研究方向?yàn)槁曇粜盘?hào)處理,深度學(xué)習(xí)。

          陳達(dá),男;張鈺,女;李友明,男。三人均為碩士研究生。

          0   引言

          (blind source separation, BSS) 是指當(dāng)源信號(hào)參數(shù)和信號(hào)混合模型都未知時(shí),基于輸入源信號(hào)的統(tǒng)計(jì)特性,將源信號(hào)從觀測信號(hào)分離出來的過程。技術(shù)先后應(yīng)用于文本數(shù)據(jù)挖掘、語音信號(hào)處理、地球物理信號(hào)處理等多個(gè)領(lǐng)域[1-3]。

          獨(dú)立分量分析[4](independent component analysis,ICA) 算法是解決問題的一個(gè)常用且高效的算法。然而,在真實(shí)的室內(nèi)環(huán)境中,由于室內(nèi)存在的混響和回聲,接收器接收得到的信號(hào)一般都不是線性混合的,而是卷積混合的。因此通常采用頻域ICA 算法進(jìn)行分離。頻域ICA 算法是通過短時(shí)傅里葉變換(short-time fourier transform, STFT) 將混合信號(hào)由時(shí)域的卷積混合轉(zhuǎn)到頻域各個(gè)頻點(diǎn)的瞬時(shí)混合,再使用ICA 算法進(jìn)行分離。但傳統(tǒng)的頻域ICA 算法通常存在幅度模糊性和排序模糊性問題[5-6],經(jīng)過學(xué)者們的不斷研究,目前已有許多算法被用來解決該問題[7-8],如獨(dú)立向量分析(IVA)算法。

          頻域ICA 算法另一個(gè)需要注意的是混響強(qiáng)弱問題,處理不好會(huì)導(dǎo)致分離性能嚴(yán)重下降。在無噪聲條件下,混響語音的質(zhì)量主要依賴于兩個(gè)不同的感知成分:早期混響和回聲。它們分別對應(yīng)兩個(gè)物理變量:信號(hào)混響能量比和混響時(shí)間。受此啟發(fā),我們采用一種單麥克風(fēng)雙級(jí)語音算法[9]。在第一階段,通過估計(jì)一個(gè)逆濾波器來抑制早期混響或增大信號(hào)混響能量比。在第二階段,采用譜減法來減少回聲的影響。實(shí)驗(yàn)表明,該算法在一定程度上抑制了室內(nèi)的混響和回聲,提高了語音的質(zhì)量。

          由于混響和回聲的存在,室內(nèi)混響語音盲分離導(dǎo)致算法性能嚴(yán)重下降。因此,通過結(jié)合兩階段算法和IVA 算法,構(gòu)建出一個(gè)新的算法模型,來處理真實(shí)室內(nèi)環(huán)境下的語音盲分離問題,即先對室內(nèi)混響語音混合信號(hào)進(jìn)行兩階段去混響處理,抑制早期混響和消除回聲,再將目標(biāo)信號(hào)轉(zhuǎn)到頻域,用IVA 算法分離語音信號(hào),最終恢復(fù)為時(shí)域語音信號(hào)。

          1   語音卷積混合模型

          在真實(shí)的室內(nèi)環(huán)境中,源信號(hào)在傳播過程中會(huì)存在各種延時(shí)和反射等現(xiàn)象,因此接收器接收到的語音信號(hào)可以表示為源信號(hào)st(i ) 和室內(nèi)脈沖響應(yīng)系數(shù)aki( t) 的卷積[10]

          image.png

          這里,xki(t ) 是接收器k 在時(shí)間t 接收到來自源信號(hào)st(i) 的分量, n 是接收器個(gè)數(shù), m 是源信號(hào)個(gè)數(shù)。

          aki(t) 模擬室內(nèi)中源信號(hào)i 到接收器k 的脈沖響應(yīng), p 是室內(nèi)脈沖響應(yīng)的最大長度。

          分幀加窗并STFT,定義x t ki( ) 的第r 幀STFT 變換為Xki(ω,r ):

          image.png

          其中,L 是幀長,N 是幀移。當(dāng)L ≥ p,即幀長大于混響時(shí)間,(2)式為:

          image.png

          其中, Aki(ω) 和 Sri(ω, ) 分別是 a t ki( ) 和s t i( ) 的STFT。至此,在室內(nèi)混響環(huán)境下,其時(shí)域上的卷積混合便轉(zhuǎn)換成為頻域各個(gè)頻點(diǎn)上的瞬時(shí)混合。

          2   一種室內(nèi)混響語音盲分離算法

          2.1 本文算法流程

          算法流程圖如圖1 所示。首先,接收一段室內(nèi)混響語音信號(hào),對該混響混合信號(hào)采用兩階段去混響算法,濾除信號(hào)中存在的混響和回聲,增大信號(hào)混響能量比和減小信號(hào)混響時(shí)間,再使用STFT 變換將信號(hào)由時(shí)域上的卷積混合轉(zhuǎn)換成為頻域各個(gè)頻點(diǎn)上的瞬時(shí)混合,采用IVA 算法分離語音信號(hào),最后通過STFT 逆變換恢復(fù)為時(shí)域語音信號(hào)。

          2.2 兩階段去混響

          通常在室內(nèi)環(huán)境中,信號(hào)在傳播時(shí)會(huì)產(chǎn)生混響和回聲。因此,一個(gè)麥克風(fēng)接收到的信號(hào)分為直達(dá)語音和混響成分。直達(dá)語音,即直接到達(dá)麥克風(fēng)的語音?;祉懗煞忠话惴譃樵缙诨祉懞突芈?,如圖2 所示, 室內(nèi)脈沖響應(yīng)的早期部分(t<50 ms) 看起來像一連串脈沖,顯示了房間的早期混響。脈沖響應(yīng)的后面部分(t>50 ms) 看起來更隨機(jī),則是房間的后期混響,也就是回聲。由于脈沖響應(yīng)的兩個(gè)部分的不同性質(zhì),本文用一個(gè)兩階段去混響算法分兩階段解決這兩種干擾。在第一階段,我們通過估計(jì)一個(gè)逆濾波器,以抑制早期混響。第二階段,我們采用譜減法來消除回聲的影響,如圖3 所示。

          image.png

          1)抑制早期混響

          在單通道去混響算法的第一階段,我們通過估計(jì)一個(gè)逆濾波器來抑制早期混響效應(yīng)或增大信號(hào)混響能量比[11]

          假設(shè)

          image.png

          是長度為L 的逆濾波器。則:

          image.png

          其中, z t ( ) 是逆濾波語音。y 是混響語音,采樣頻率是16 kHz。由于處理后語音的線性預(yù)測殘差與逆濾波后混響語音的線性預(yù)測殘差近似,因此有:

          image.png

          其中,yr(t) 是混響語音的線性預(yù)測殘差。

          則濾波器方程如下所示:

          image.png

          其中,μ 是指步長學(xué)習(xí)速率。

          在采用時(shí)域自適應(yīng)濾波器時(shí),由于輸入信號(hào)在時(shí)域的自相關(guān)矩陣的特征向量變化過大,可能會(huì)不完全收斂[12]。因此,我們采用一個(gè)頻域塊結(jié)構(gòu)來進(jìn)行優(yōu)化,則可以得到新的逆濾波器公式:

          image.png

          其中,F(xiàn)(m) 和Yr(m) 分別代表的是 f(t) 和y? t r( ) 傅里葉變換(FFT) 的第m 個(gè)塊。上標(biāo)? 代表復(fù)共軛。G(n) 是g? 的FFT 在第n 次迭代的值,M 是塊數(shù)。

          圖4 顯示了圖2 逆濾波后的室內(nèi)脈沖響應(yīng)波形圖。通過圖2 與圖4 的對比可以看出,圖2 原始脈沖響應(yīng)50 ms 之前的混響成分幅度大、多且雜亂,而圖4 逆濾波室內(nèi)脈沖響應(yīng)波形圖50 ms 之前的早期混響部分在很大程度上被抑制住了。由此可得出,此算法估計(jì)的逆濾波器能在一定程度上抑制室內(nèi)脈沖響應(yīng)的早期混響部分,增大信號(hào)混響能量比,提高語音質(zhì)量。

          image.png

          2)消除后期回聲

          在算法的第二階段,我們采用譜減法來消除回聲的影響。室內(nèi)脈沖響應(yīng)函數(shù)的后期混響破壞了語音頻譜,降低了語音清晰度和質(zhì)量。同樣,經(jīng)過去混響后的脈沖響應(yīng)也可以分解成兩部分:早期脈沖和晚期脈沖。通過對后期脈沖進(jìn)行估計(jì)并予以減去,可以提高語音質(zhì)量[13]。假設(shè)后期脈沖部分的功率譜是逆濾波后語音z(t)功率譜經(jīng)過各種變換得來的,那么可以得到:

          image.png

          其中,S k i l( ; ) 2 是逆濾波后語音短時(shí)功率譜,Si(kz) ; 2是后期脈沖部分的短時(shí)功率譜。k 是頻率點(diǎn),i 是時(shí)間幀。ω(i)是平滑函數(shù)。移位延遲ρ 表示后脈沖分量的相對長度,比例因子γ 指定逆濾波后的后脈沖分量的相對強(qiáng)度。

          為了證明使用譜減法是正確的,我們現(xiàn)在證明早期脈沖和后期脈沖分量是近似不相關(guān)的。如果我們認(rèn)為純凈語音s t ( ) 和逆濾波后脈沖h t e( ) 是獨(dú)立的隨機(jī)過程,那么就有:

          image.png

          其中,τ 1 和τ 2 在各自的集成中涵蓋不同的范圍。由于語音信號(hào)存在長時(shí)不相關(guān)性,當(dāng)τ τ 1 2 ? 的時(shí)間差距比較大時(shí),E[s(t ?τ )s(t ?τ )] ≈ 0 1 2 。因此,上式的相關(guān)性非常小,從而證明了早期混響和后期混響部分互不相關(guān)。

          原語音的功率譜就等于逆濾波后的語音信號(hào)的功率譜減去后脈沖信號(hào)的功率譜。其相應(yīng)的表達(dá)式如下所示。

          image.png

          其中,image.png原始語音信號(hào)功率譜, ε 是地板系數(shù)。

          2.3 獨(dú)立向量分析

          由于觀測信號(hào)通過STFT 轉(zhuǎn)化為頻域的線性瞬時(shí)混合,因此可以用ICA 算法來分離混合信號(hào)。為了避免排序模糊性問題,本文選擇IVA算法[14] 來分離得到源信號(hào)。

          信號(hào)間的 KL 散度可以表示為:

          image.png

          image.png

          又因?yàn)閅 (ω) =W(ω)X(ω) ,則上式中微分熵為:

          image.png

          式(16) 等號(hào)右邊第2 項(xiàng)可以表示為:

          image.png

          image.png

          image.png

          因此,可以得到目標(biāo)函數(shù)最終形式:

          image.png

          image.png

          其中, wi,k(ω)是分離矩陣W(ω)的第i行,G′(?)是G(?)的1 階導(dǎo)數(shù), k 指迭代次數(shù), ηk 是步長參數(shù)。

          3   仿真實(shí)驗(yàn)及結(jié)果分析

          3.1 實(shí)驗(yàn)設(shè)置

          圖5 描述了實(shí)驗(yàn)中的房間布局,包括房間大小、聲源和麥克風(fēng)位置等。實(shí)驗(yàn)選取兩組不同的數(shù)據(jù)集中時(shí)長為3 s 的純凈語音,每組語音數(shù)據(jù)均為英文男聲和英文女聲的組合,采樣頻率是16 kHz。由Roomsim 算法生成混響時(shí)間為200 ms 的室內(nèi)混響沖擊響應(yīng),如圖6 所示。

          其中,a11 是模擬房間中第1 個(gè)信源到第1 個(gè)麥克風(fēng)的沖擊響應(yīng),a12 是模擬房間中第1 個(gè)信源到第2 個(gè)麥克風(fēng)的沖擊響應(yīng),a21 是模擬房間中第2 個(gè)信源到第1 個(gè)麥克風(fēng)的沖擊響應(yīng),a22 是模擬房間中第2 個(gè)信源到第2個(gè)麥克風(fēng)的沖擊響應(yīng)。

          image.png

          image.png

          3.2 分離性能指標(biāo)

          本文采用評(píng)價(jià)盲源分離算法性能的工具箱BSS_EVAL[15] 來公正合理地評(píng)價(jià)算法的分離效果。采用信號(hào)干擾比(SIR) 和信號(hào)畸變比(SDR) 對算法的分離性能進(jìn)行評(píng)估。假設(shè)每個(gè)分離出的信號(hào)可分解為目標(biāo)信號(hào)starget(n)、干擾信號(hào)e n int erf ( ) 和算法帶來的虛假信號(hào)eartif(n)三部分。

          image.png

          則分離信號(hào)的SIR 和SDR 分別定義為:

          image.png

          3.3 仿真結(jié)果

          對兩組信號(hào)采用本文提出的基于去混響的室內(nèi)混響語音盲分離算法進(jìn)行分離,并輸出波形。兩組語音的源信號(hào)、混合信號(hào)以及分離出來的信號(hào)均如圖7 所示。為了美觀,本文只列出了一組室內(nèi)混響語音盲分離的波形圖。源信號(hào)如圖7 所示。將源信號(hào)與通過Roomsim 生成的混響沖擊響應(yīng)卷積得到混合信號(hào),如圖8 所示。再將混合信號(hào)經(jīng)過兩階段去混響處理,得到語音去混響波形圖,如圖9 所示。最后通過本文提出的算法得到分離信號(hào)波形圖,如圖10 所示。

          image.png

          image.png

          通過圖8 與圖9 之間對比可以看出,經(jīng)過去混響算法后,混合語音細(xì)節(jié)變得更加清晰,且明顯消除了室內(nèi)混響所產(chǎn)生的回聲。因此,兩階段去混響算法效果十分明顯。

          通過將圖10 和圖7 進(jìn)行對比可以看出,該算法能夠?qū)⒃葱盘?hào)有效分離出來。但是僅僅通過觀察,并不能準(zhǔn)確評(píng)價(jià)算法的分離效果。因此本文引入盲源分離工具箱來評(píng)估算法的分離效果,并與未進(jìn)行兩階段去混響的原算法進(jìn)行對比分析。通過實(shí)驗(yàn)仿真,得到兩組數(shù)據(jù)的兩種算法的SIR 和SDR 性能參數(shù),如圖11 和圖12。從圖11 中可以看出,改進(jìn)算法的SIR 相對于原算法最高獲得了2.13 dB 的提升,SDR 最高提升了1.21 dB。

          4   結(jié)語

          針對室內(nèi)混響環(huán)境下卷積混合語音信號(hào)存在混響和回聲而導(dǎo)致頻域盲分離精度低的問題,提出了一種新的室內(nèi)混響語音盲分離方法,可以有效提高室內(nèi)混響語音盲分離的效果。

          image.png

          參考文獻(xiàn):

          [1] LEGLAIVE S, BADEAU R,RICHARD G.Separating Time-Frequency Sources from TimeDomain Convolutive Mixtures Using Non-negative Matrix Factorization[C]. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, New Paltz, New York, United States.

          [2] 張華,馮大政,龐繼勇.卷積混迭語音信號(hào)的聯(lián)合塊對角化盲分離方法[J].聲學(xué)學(xué)報(bào)(中文版),2009,34(02):167-174.

          [3] 季策,姜雨田.基于方向幅值比的欠定盲源分離算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,40(07):920-924.

          [4] 陳秀敏,李珊君,董興建.Fast-ICA算法非線性函數(shù)性能的仿真分析[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(06):277-282+333.

          [5] 李揚(yáng),張偉濤,樓順天.基于聯(lián)合對角化的聲信號(hào)深度卷積混合盲分離方法[J].電子與信息學(xué)報(bào),2019,41(12):2951-2956.

          [6] 張?zhí)祢U,張華偉,劉董華,李群.基于區(qū)域增長校正的頻域盲源分離排序算法[J].電子與信息學(xué)報(bào),2019,41(03):580-587.

          [7] 冷艷宏,鄭成詩,李曉東.功率比相關(guān)子帶劃分快速獨(dú)立向量分析[J].信號(hào)處理,2019,35(08):1314-1323.

          [8] 朱堅(jiān)堅(jiān),王惠剛,李虎雄.聯(lián)合頻域盲語音分離排序算法[J].計(jì)算機(jī)應(yīng)用,2008(06):1552-1554+1562.

          [9] WU M, WANG D. A two-stage algorithm for one-microphone reverberant speech enhancement[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3):774-784.

          [10] 顧凡,王惠剛,李虎雄.一種強(qiáng)混響環(huán)境下的盲語音分離算法[J].信號(hào)處理,2011,27(04):534-540.

          [11] GILLESPIE B W, MALVAR H S, FLORENCIO D, et al.Speech dereverberation via maximum-kurtosis subband adaptive filtering[C]. international conference on acoustics, speech, and signal processing, 2001: 3701-3704.

          [12] HAYKIN S.Adaptive Filter Theory[M].4th ed. Upper Saddle River, N.J.: Prentice-Hall, 2002.

          [13] NAKATANI T, MIYOSHI M.Blind dereverberation of single channel speech signal based on harmonic structure[C]. international conference on acoustics, speech, and signal processing, 2003: 92-95.

          [14] KIM T,ATTIAS H T,LEE S Y,et al.Blind source separation exploiting higher-order frequency dependencies[J].IEEE Transactions on Audio Speech &Language Processing,2006,15(1):70–79.

          [15] 張?zhí)祢U,徐昕,吳旺軍,等.多反復(fù)結(jié)構(gòu)模型的精確音樂分離方法[J].聲學(xué)學(xué)報(bào), 2016(1): 135-142.

          (本文來源于《電子產(chǎn)品世界》雜志設(shè)2021年4月期)

          image.png




          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();