智能家庭應(yīng)用之語音識(shí)別系統(tǒng)
開發(fā)基于自然語言的語音識(shí)別系統(tǒng)面臨許多技術(shù)挑戰(zhàn),包括使用精確的語音識(shí)別引擎將機(jī)器聽到的內(nèi)容翻譯成文字—以及一個(gè)綜合的自然語言處理器,它能判斷所說內(nèi)容的意思或意圖,然后返回一個(gè)有意義的響應(yīng)或動(dòng)作。這些課題已經(jīng)被廣泛研究幾十年了,這里不作過多討論。本文主要討論在遠(yuǎn)場(chǎng)語音接口系統(tǒng)中經(jīng)常被忽視但同樣很重要的技術(shù)性挑戰(zhàn):在語音到達(dá)語音識(shí)別引擎之前的語音預(yù)處理。
本文引用地址:http://www.ex-cimer.com/article/201710/368280.htm即使是最現(xiàn)代的語音識(shí)別引擎要想運(yùn)轉(zhuǎn)良好也有一個(gè)基本的要求—輸入到該引擎的必須是語音。雖然對(duì)遠(yuǎn)場(chǎng)語音接口系統(tǒng)來說這似乎是顯而易見的要求,但它卻是最具挑戰(zhàn)性的要求之一。這里的“遠(yuǎn)場(chǎng)”指的是用戶話音距產(chǎn)品麥克風(fēng)的距離超過半米的系統(tǒng)。舉例來說,靠近用戶臉部的智能手機(jī)形成的是一種“近場(chǎng)”用例,但對(duì)著一臂之長(zhǎng)的PC機(jī)或平板電腦講話或隔著房間對(duì)電視機(jī)、立體聲系統(tǒng)、燈光開關(guān)、自動(dòng)調(diào)溫器或智能家庭控制器講話ADC都算作“遠(yuǎn)場(chǎng)”用例。
近場(chǎng)和遠(yuǎn)場(chǎng)用例之間存在著許多重要的差別,這些差別產(chǎn)生了在近場(chǎng)系統(tǒng)中沒有但在遠(yuǎn)場(chǎng)系統(tǒng)中十分艱巨的技術(shù)性挑戰(zhàn)。
1.大動(dòng)態(tài)范圍:在遠(yuǎn)場(chǎng)系統(tǒng)中,用戶語音可能非常低,因?yàn)樗?她與產(chǎn)品麥克風(fēng)有數(shù)米距離,但干擾可能非常大,比如在受語音控制的揚(yáng)聲器系統(tǒng)中有音樂回放的場(chǎng)合。
2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和噪聲:遠(yuǎn)場(chǎng)系統(tǒng)中的語音噪聲比要比近場(chǎng)系統(tǒng)中的小得多。隨著用戶不斷遠(yuǎn)離產(chǎn)品的麥克風(fēng),語音電平會(huì)越來越小,而背景噪聲電平保持不變。
同樣,從用戶嘴巴到麥克風(fēng)的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風(fēng)的直接路徑相比可能有很顯著的功率(即低的DRR)。在使用傳統(tǒng)的語音處理技術(shù)和語音識(shí)別引擎時(shí)這種混響效應(yīng)會(huì)造成很大的問題。
最后,在遠(yuǎn)場(chǎng)系統(tǒng)中,用戶語音相對(duì)于麥克風(fēng)的方向以及噪聲相對(duì)于麥克風(fēng)的方向都是未知的。在典型應(yīng)用場(chǎng)合,噪聲甚至與用戶語音來自相同的方向。
3.全雙工話音交互:在許多遠(yuǎn)場(chǎng)系統(tǒng)中,當(dāng)用戶對(duì)著產(chǎn)品講話時(shí),產(chǎn)品的揚(yáng)聲器中可能正在播放音頻內(nèi)容,如音樂、電影或話音提示。這時(shí)需要使用一個(gè)全雙工的回聲消除器,以便在聆聽用戶語音的同時(shí)抵消掉產(chǎn)品的回放輸出聲。在回聲消除器并不完全了解回放內(nèi)容的系統(tǒng)中情況就更加復(fù)雜了。
在這些情況下,實(shí)現(xiàn)一個(gè)依然能夠良好拾取語音的系統(tǒng)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。本文將介紹傳統(tǒng)方法為何無法在這些遠(yuǎn)場(chǎng)條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠(yuǎn)場(chǎng)性能的一種解決方案。
大動(dòng)態(tài)范圍
用于智能家庭設(shè)備的語音捕獲系統(tǒng)需要支持大信號(hào)動(dòng)態(tài)范圍,從輕聲細(xì)語到響亮的音頻內(nèi)容回放。對(duì)于與用戶距離大概在0.5米至3米范圍內(nèi)的設(shè)備來說,設(shè)備麥克風(fēng)處的語音電平范圍大概在75dB至44dB SPL。對(duì)于體積不大的音頻回放設(shè)備來說,回放內(nèi)容在設(shè)備麥克風(fēng)處的SPL電平可能接近95dB。這種典型和極具挑戰(zhàn)性的用例對(duì)設(shè)備中的麥克風(fēng)和模數(shù)轉(zhuǎn)換器(ADC)的選型有很大的影響。
對(duì)于遠(yuǎn)場(chǎng)應(yīng)用來說,選擇具有高信噪比值的麥克風(fēng)非常重要。如上所述,目標(biāo)語音信號(hào)的SPL 電平可能低至44dB。對(duì)于94dB SPL的1kHz音來說,如果使用信噪比(SNR)為66dB的麥克風(fēng),等效的本底噪聲為28dB SPL,那么最差情況下的語音與麥克風(fēng)自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風(fēng),那么語音與麥克風(fēng)自身噪聲之比可能低至5dB!
ADC內(nèi)部的本底噪聲也很重要,因?yàn)槿绻麘?yīng)用中的ADC動(dòng)態(tài)范圍不夠的話,還會(huì)造成信號(hào)飽和。
圖 1顯示了兩種ADC的輸入?yún)⒖荚肼?,它們都是麥克風(fēng)增強(qiáng)設(shè)置值的函數(shù)。紅線顯示的是動(dòng)態(tài)范圍大約是96dB的18位ADC性能,藍(lán)線顯示的是動(dòng)態(tài)范圍大約為106dB的24位ADC性能。作為參考,灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風(fēng)自身噪聲電平。
圖1:麥克風(fēng)自身的噪聲和來自ADC的噪聲將疊加在一起形成系統(tǒng)總的本底噪聲。
圖 2和圖3顯示了分別使用96dB動(dòng)態(tài)范圍和106dB動(dòng)態(tài)范圍的ADC時(shí)系統(tǒng)的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點(diǎn)。合理的設(shè)置是針對(duì)96dB ADC使用24dB的麥克風(fēng)增強(qiáng)值、針對(duì)106dB ADC使用12dB的麥克風(fēng)增強(qiáng)值。在本例中,使用106dB ADC時(shí)的本底噪聲要低2dB,飽和點(diǎn)要高12dB。本底噪聲低2dB對(duì)于拾取遠(yuǎn)場(chǎng)條件中的語音來說尤其重要。
圖2:這張表顯示了使用96dB ADC時(shí)的系統(tǒng)屬性。
圖3:這張表顯示了使用106dB ADC時(shí)的系統(tǒng)屬性。
考慮到峰值內(nèi)容和諧振等因素,由于回聲而在麥克風(fēng)處產(chǎn)生的SPL電平可能達(dá)到96dB甚至更高。因此對(duì)于具有大聲回放而且體積不大的設(shè)備來說,在使用 96dB或者更低動(dòng)態(tài)范圍的ADC時(shí)飽和問題很常見。當(dāng)在實(shí)際系統(tǒng)中遇到這些問題時(shí),唯一的解決方案通常是進(jìn)一步降低麥克風(fēng)的增強(qiáng)值,但這樣做的同時(shí)會(huì)抬高本底噪聲。在這個(gè)例子中,麥克風(fēng)增強(qiáng)值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對(duì)遠(yuǎn)場(chǎng)產(chǎn)品來說首選的解決方案是使用具有高信噪比的麥克風(fēng)和106dB或更高動(dòng)態(tài)范圍的ADC。
遠(yuǎn)場(chǎng)噪聲/干擾和混響消除以及擺脫方向性約束
在智能家居遠(yuǎn)場(chǎng)應(yīng)用中,獲得魯棒性的語音拾取的條件可以說是相當(dāng)苛刻的。用戶和設(shè)備之間的遠(yuǎn)距離導(dǎo)致了其信噪比比近場(chǎng)應(yīng)用要低很多。遠(yuǎn)距離還會(huì)造成語音具有很低的直接路徑與混響路徑比值(DRR)。這個(gè)比值衡量的是直接傳輸?shù)禁溈孙L(fēng)的語音信號(hào)能量與通過反射途徑到達(dá)麥克風(fēng)的能量的相對(duì)大小。在大多數(shù)家庭和辦公室中,RT60時(shí)間一般在300ms至800ms范圍內(nèi)—這個(gè)時(shí)間將導(dǎo)致音頻信號(hào)在室內(nèi)來回反彈中損失掉約60dB的能量。當(dāng)用戶與麥克風(fēng)的距離超過1米時(shí),低的DRR值對(duì)于傳統(tǒng)語音增強(qiáng)解決方案和語音識(shí)別性能來說是一個(gè)很大的問題。
噪聲/干擾條件的變化也很大。系統(tǒng)需要能夠同時(shí)處理靜態(tài)干擾(也就是說頻譜特性非常穩(wěn)定或變化非常緩慢的信號(hào))和非靜態(tài)干擾(即頻譜特性不斷變化的信號(hào))。當(dāng)噪聲相對(duì)穩(wěn)定時(shí),傳統(tǒng)的單個(gè)麥克風(fēng)增強(qiáng)方法是非常有效的。然而,當(dāng)干擾變成非穩(wěn)態(tài)時(shí),這種方法就捉襟見肘了。因此為了改進(jìn)現(xiàn)實(shí)世界條件下的語音識(shí)別性能,要求使用多麥克風(fēng)方法。
傳統(tǒng)的多麥克風(fēng)增強(qiáng)算法,比如波束成形,通過估計(jì)一組受約束的空間濾波器來增強(qiáng)來自預(yù)定義空間方向的信號(hào)。圖4顯示了一種傳統(tǒng)波束成形器的框圖。這種波束成形器有三個(gè)主要單元:最小方差無失真響應(yīng)(MVDR),阻塞矩陣(BM),自適應(yīng)后置濾波器。
圖4:傳統(tǒng)波束成形器有三個(gè)主要單元:最小方差無失真響應(yīng)(MVDR),阻塞矩陣(BM),自適應(yīng)后置濾波器
MVDR 將以這樣的一種方式將麥克風(fēng)信號(hào)合成在一起:一邊嘗試將波束成形器的空波束指向干擾源,一邊將一個(gè)波束指向目標(biāo)源。對(duì)每一個(gè)獨(dú)立的空波束都要求一個(gè)額外的麥克風(fēng),因此對(duì)于目標(biāo)語音可能來自任何方向的智能家庭應(yīng)用來說會(huì)顯著增加成本。MVDR利用增強(qiáng)的信噪比產(chǎn)生對(duì)目標(biāo)源的估計(jì)。然而,信號(hào)仍然可能包含相當(dāng)多的殘留噪聲,因?yàn)樗荒艿窒麃碜耘c目標(biāo)源相同方向的干擾,而這種情況在典型的現(xiàn)實(shí)世界中是很常見的,而且它也不能利用有限的麥克風(fēng)數(shù)量抵消掉波束外的所有干擾。阻塞矩陣(BM)可以通過朝目標(biāo)源放置波束成形器的零點(diǎn)來估計(jì)噪聲/干擾。然而結(jié)果信號(hào)將包含目標(biāo)源的殘留,因?yàn)樵诨祉憲l件下,由于反射(混響) 的原因目標(biāo)源不是從單一方向到達(dá)麥克風(fēng)的。
自適應(yīng)后置濾波器的目的是從MVDR輸出中消除殘留噪聲,從而提高信噪比。然而,所有濾波器算法都受這樣一個(gè)事實(shí)的限制:在阻塞矩陣的輸出中存在很強(qiáng)的目標(biāo)源。噪聲估計(jì)中的這種殘留語音將導(dǎo)致所有后置濾波器扭曲到語音信號(hào)。隨著混響的增加(DRR越來越?。@種失真的嚴(yán)重性也隨之增加。解決這個(gè)問題的唯一方法是顯著增加麥克風(fēng)的數(shù)量,這種解決方案對(duì)許多消費(fèi)類應(yīng)用來說就變得太過昂貴了。
因此在對(duì)成本敏感的消費(fèi)產(chǎn)品所具有的遠(yuǎn)場(chǎng)條件下,傳統(tǒng)的波束成形解決方案不能提供令人滿意的性能,需要新的解決方案。
理想的解決方案應(yīng)該能在各種遠(yuǎn)場(chǎng)音頻條件下提供一致的噪聲抑制性能,即使是只使用兩個(gè)麥克風(fēng)。這樣的解決方案不應(yīng)對(duì)濾波解決方案提出任何嚴(yán)苛的約束條件,比如波束成形中的方向性約束,同時(shí)能提供良好的靜止和非靜止噪聲抑制能力。理想的解決方案還應(yīng)該隱式地建?;祉懶?yīng),從而避免其性能受DDR變化顯著影響這樣的波束成形問題。最后,解決方案應(yīng)該具有足夠的魯棒性,它可以完全不受麥克風(fēng)位置和麥克風(fēng)匹配的影響,從而消除對(duì)專門參數(shù)調(diào)諧的要求。
一種改進(jìn)的遠(yuǎn)場(chǎng)解決方案實(shí)現(xiàn)是這樣一種架構(gòu):算法中受監(jiān)視/約束的部分只用于檢測(cè)目的,不直接用于約束濾波器設(shè)計(jì),而且濾波器都接受無監(jiān)視方式的訓(xùn)練。圖5 顯示了基于盲源分離(BSS)的這樣一種解決方案的高層結(jié)構(gòu)。這種解決方案有三個(gè)主要部分:基于受監(jiān)視功能的話音活動(dòng)檢測(cè)器(VAD),不受監(jiān)視的空間濾波,不受監(jiān)視的頻譜濾波。
圖5:這張圖顯示了基于盲源分離的SSP高層結(jié)構(gòu)。
基于受監(jiān)視功能的話音活動(dòng)檢測(cè)器(VAD)會(huì)對(duì)目標(biāo)語音的存在進(jìn)行概率測(cè)量。然后在不受監(jiān)視的濾波模塊中使用這個(gè)信息判斷是否為噪聲、干擾或目標(biāo)語音源訓(xùn)練濾波器。在這種架構(gòu)中可以使用任何合適的VAD。
系統(tǒng)的核心是不受監(jiān)視的空間濾波(USF)—基于獨(dú)立分量分析(ICA)的一種BSS算法。這種ICA算法設(shè)法建模目標(biāo)源和干擾源的混合系統(tǒng),并允許用線性濾波將它們分開來。在只有兩個(gè)麥克風(fēng)的系統(tǒng)中,USF將產(chǎn)生4個(gè)信號(hào)輸出,每個(gè)麥克風(fēng)2個(gè)。對(duì)每個(gè)麥克風(fēng)來說,一個(gè)信號(hào)包含目標(biāo)源和一些殘留噪聲,另一個(gè)信號(hào)包含對(duì)所有干擾源的估計(jì),其中目標(biāo)源已經(jīng)被濾除。
USF做到這一點(diǎn)所需的唯一信息是在知道何時(shí)目標(biāo)語音有效以及何時(shí)噪聲有效,這個(gè)信息來自VAD。然后USF尋找濾波器以完全不受監(jiān)視的方式對(duì)目標(biāo)源和干擾源進(jìn)行分拆。USF并不明確地使用源方向,雖然這個(gè)信息可以用來改善 VAD決策。另外,麥克風(fēng)在設(shè)備上的位置和麥克風(fēng)之間的不匹配對(duì)算法的影響很小。在ICA系統(tǒng)中,如果存在N個(gè)源,那么通常至少需要N個(gè)麥克風(fēng)來恢復(fù)原始信號(hào)。然而,通過將信號(hào)看作是包含1)一個(gè)目標(biāo)語音信號(hào)和一個(gè)噪聲信號(hào),或2)只有一個(gè)噪聲信號(hào),ICA可以只與兩個(gè)麥克風(fēng)和未知數(shù)量的噪聲源一起使用。
USF 的輸出不是在系統(tǒng)輸出中直接使用,因?yàn)樗僭O(shè)合成信號(hào)是由有限數(shù)量的空間定位源產(chǎn)生的信號(hào)的線性合成。這種一致性假設(shè)條件對(duì)主要的語音源信號(hào)來只是部分成立,但對(duì)現(xiàn)實(shí)世界噪聲來說不是的。因此線性濾波對(duì)于現(xiàn)實(shí)世界應(yīng)用來說不是最優(yōu)的,要求用非線性、隨時(shí)間變化的統(tǒng)計(jì)性后置濾波對(duì)信號(hào)進(jìn)行補(bǔ)償。后置濾波方法通常涉及到對(duì)由線性濾波器輸出推導(dǎo)出的頻譜/臨時(shí)模板(或增益)進(jìn)行估計(jì)。雖然模板通常能提高噪聲抑制能力,但如果沒有考慮分拆模型不確定性的話,屏蔽效應(yīng)可能導(dǎo)致信號(hào)的嚴(yán)重劣化。
用于頻譜濾波的方法可以基于不受監(jiān)視的頻譜增益分布學(xué)習(xí),而這種分布源自USF的輸出信號(hào)。然后就能產(chǎn)生語音存在/不存在的概率;這些概率用來控制對(duì)每個(gè)通道的頻譜增強(qiáng)。增強(qiáng)技術(shù)可以消除有害的干擾,與此同時(shí)消除最近的混響分量,即有效地去除混響。
圖 6和圖7顯示了這樣一種系統(tǒng)的性能例子。在這個(gè)測(cè)試中,用戶距雙麥克風(fēng)系統(tǒng)3米遠(yuǎn)。麥克風(fēng)處的目標(biāo)語音電平是60dB,麥克風(fēng)處的干擾語音電平是 50dB。圖6中的上面通道顯示的是沒經(jīng)任何處理的接收信號(hào)。下面通道顯示的是經(jīng)過處理后的輸出。圖7顯示了處理之前和之后的干擾頻譜內(nèi)容。在這種條件下,可以達(dá)到大約30dB的干擾信號(hào)抑制。當(dāng)未處理信號(hào)通過語音識(shí)別引擎發(fā)送時(shí),可能達(dá)到95%的誤字率(WER)。經(jīng)過處理后的WER可下降到15%。
圖6:上面通道顯示的是未經(jīng)任何處理的接收信號(hào)。下面通道顯示的是處理后的輸出。
圖7:顯示的是處理之前和處理之后的干擾頻譜內(nèi)容。
聲學(xué)回音消除(AEC) 已經(jīng)存在很多年了,是任何免提通信系統(tǒng)的必要部分。聲學(xué)回音消除器可以從麥克風(fēng)記錄中消除設(shè)備本身正在回放的音頻。最簡(jiǎn)單的AEC是半雙工的,也就是說,當(dāng)遠(yuǎn)端在講話時(shí),它會(huì)馬上關(guān)閉近端的麥克風(fēng),反之亦然,即當(dāng)近端講話時(shí)則關(guān)閉遠(yuǎn)端的麥克風(fēng)。在這些系統(tǒng)中,同一時(shí)刻只能有一邊講話。
對(duì)于語音控制應(yīng)用來說,真正的全雙工回音消除是系統(tǒng)的一個(gè)必要部分,也就是要達(dá)到語音控制和回放同時(shí)進(jìn)行的效果。聲學(xué)回音消除器(AEC)要想正常工作,需要能夠訪問到信號(hào),也就是設(shè)備正在播放的回音參考。AEC隨即使用這個(gè)回音參考對(duì)房間內(nèi)的聲學(xué)回音路徑進(jìn)行線性建模。然而在實(shí)際系統(tǒng)中,回音路徑中通常有相當(dāng)多的非線性因素,它們會(huì)顯著降低系統(tǒng)性能—比如當(dāng)設(shè)備正在試圖從小的揚(yáng)聲器中產(chǎn)生大的回放音量時(shí)。另外一個(gè)例子發(fā)生在回放信號(hào)被發(fā)送到AEC作為回音參考之后對(duì)這個(gè)回放信號(hào)進(jìn)行非線性的后置處理之時(shí)。語音控制的機(jī)頂盒(STB)就是這種情況,此時(shí)AEC在工作,機(jī)頂盒中也獲得了回音參考,但電視機(jī)很可能在播放音頻之前在音頻上疊加一些未知延時(shí)和后處理。在這些條件下使用傳統(tǒng)的AEC性能會(huì)很低。
這個(gè)問題可以這樣解決:將AEC連接到前文介紹的噪聲抑制技術(shù)。只要AEC能夠區(qū)分遠(yuǎn)端、近端和雙邊談話活動(dòng),這個(gè)信息就能用作USF的活動(dòng)檢測(cè)輸入。這種方法在具有非線性及受損回音參考的系統(tǒng)中可以提供真正全雙工的AEC性能。
另外,這種新的AEC技術(shù)應(yīng)該包含一個(gè)延時(shí)估計(jì)算法,以便通過對(duì)齊回音參考和麥克風(fēng)信號(hào)來解決回音路徑中的未知延時(shí),就象在機(jī)頂盒案例中那樣。
圖 8和圖9顯示了一個(gè)機(jī)頂盒系統(tǒng)的性能。用戶距電視機(jī)3米遠(yuǎn),麥克風(fēng)模塊位于電視機(jī)頂上,并連接到機(jī)頂盒。用戶給機(jī)頂盒發(fā)出自然語言命令。在麥克風(fēng)模塊處目標(biāo)語音的SPL是60dB,來自電視回放內(nèi)容的回音SPL是72dB。圖8的上部顯示的是未經(jīng)處理的麥克風(fēng)信號(hào),底部顯示的是經(jīng)過處理的麥克風(fēng)信號(hào)。圖9 顯示的是處理前后殘留回音的頻譜內(nèi)容。在這個(gè)案例中,處理前的誤字率(WER)是100%,處理后則達(dá)到了8%。
圖8:這張圖的上部分顯示的是未經(jīng)處理的麥克風(fēng)信號(hào),下部分顯示的是處理過的麥克風(fēng)信號(hào)。
圖9:這張圖顯示了處理前后殘留回音的頻譜內(nèi)容。
本文小結(jié)
傳統(tǒng)的波束成形語音增強(qiáng)方法在智能家庭遠(yuǎn)場(chǎng)應(yīng)用環(huán)境中通常無法提供可接受的解決方案,因此很有必要開發(fā)其它的系統(tǒng)來成功地滿足和應(yīng)對(duì)這些遠(yuǎn)場(chǎng)挑戰(zhàn)。舉例來說,科勝訊(Conexant)公司已經(jīng)開發(fā)出了如同本文所述的極具成本效益且高集成度的解決方案,這些解決方案采用了高動(dòng)態(tài)范圍的ADC,在低信噪比、低DDR以及語音和噪聲方向未知的條件下具有卓越的遠(yuǎn)場(chǎng)噪聲/干擾抑制性能,而且即使在回音信號(hào)不完全確定的情況下也能實(shí)現(xiàn)真正全雙工的聲學(xué)回音消除。這些解決方案已被科勝訊公司部署到從智能家庭設(shè)備到平板電腦、PC和可穿戴設(shè)備的許多產(chǎn)品平臺(tái)上,并且所有產(chǎn)品都具有優(yōu)秀的性能結(jié)果。
像波束成形等傳統(tǒng)方法要求極高的麥克風(fēng)成本、特殊的平臺(tái)調(diào)諧,并對(duì)麥克風(fēng)位置、匹配以及語音和噪聲的方向性有許多約束條件。而上述替代性解決方案的魯棒性可直接轉(zhuǎn)換為更好的性能,并能在新的智能家庭產(chǎn)品開發(fā)和制造過程中顯著節(jié)省成本。
評(píng)論