一種用于抗噪語音識別的動態(tài)參數(shù)補(bǔ)償新方法
與機(jī)器進(jìn)行語音交流,是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),其被認(rèn)為是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。在語音識別中,當(dāng)識別器的訓(xùn)練環(huán)境同應(yīng)用環(huán)境不同時,其性能會急劇下降。為了解決這一問題,各種技術(shù)方法陸續(xù)地被提了出來,這些技術(shù)方法主要分為三大類:1)語音魯棒特征的表達(dá)和提取技術(shù);2)語音增強(qiáng)技術(shù);3)模型補(bǔ)償技術(shù)。關(guān)于這些方法的詳細(xì)回顧可參見文獻(xiàn)。本文的討論重點(diǎn)是模型補(bǔ)償技術(shù)。模型補(bǔ)償技術(shù)主要是通過合并純凈語音模型與噪聲模型,從而產(chǎn)生出用于識別的帶噪語音模型。文獻(xiàn)中已經(jīng)證明PMC方法是一種非常有效的模型補(bǔ)償方法,它能產(chǎn)生出具有魯棒性的帶噪語音模型,這些文獻(xiàn)中并且給出了幾種不同的PMC方法。在這些PMC方法中,一些諸如數(shù)字積分PMC(Numerical Integral PMC)和數(shù)據(jù)驅(qū)動PMC(Date―driven PMC)方法能夠獲得很佳的識別率,但是這些方法的運(yùn)算復(fù)雜度巨大,很難運(yùn)用到實(shí)際應(yīng)用中去。另一方面,一些諸如對數(shù)_力口PMC(Log-Add PMC)和對數(shù).正態(tài)PMC(Log―Normal PMC)方法通過使用較簡單的估計(jì)方法來生成帶噪語音模型,這樣在很低信噪比的條件下識別效果不是很令人滿意。其中Log-Normal PMC方法對靜態(tài)模型參數(shù)給出一個嚴(yán)格的補(bǔ)償方案,但是對動態(tài)模型參數(shù),到目前為止只能對其均值進(jìn)行簡單的補(bǔ)償。雖然這種動態(tài)的均值補(bǔ)償可以提高識別率,但是算法仍有改進(jìn)的空間,使其能夠?yàn)閯討B(tài)的協(xié)方差參數(shù)提供補(bǔ)償。
為了解決這一問題,本文提出了一種新的動態(tài)模型補(bǔ)償方法(DPCM)。DPCM選定語音特征與噪聲特征的差為一個新的附加隨機(jī)變量,并假設(shè)該附加變量與語音和噪聲特征的導(dǎo)數(shù)之間均相互統(tǒng)計(jì)獨(dú)立。這樣,動態(tài)特征的補(bǔ)償即可通過數(shù)學(xué)的方法來解決。此外新的DPCM可以同任何已知的靜態(tài)補(bǔ)償方法結(jié)合生成新的帶噪語音模型。實(shí)驗(yàn)結(jié)果也證明使用該DPCM可以提供更好的識別率。
本文定義和使用一致的域標(biāo)號。上標(biāo)l表示對數(shù)功率譜域,無上標(biāo)的則表示Mel線性功率譜域。估計(jì)出的噪聲模型參數(shù)用~標(biāo)記,補(bǔ)償出的帶噪語音模型參數(shù)用^標(biāo)記。
2 模型補(bǔ)償技術(shù)
模型補(bǔ)償技術(shù)是根據(jù)應(yīng)用環(huán)境的背景噪聲情況,通過修正純凈語音特征的統(tǒng)計(jì)模型產(chǎn)生出一個更接近真實(shí)帶噪語音特征的統(tǒng)計(jì)模型。圖1是一個基本模型補(bǔ)償方案框圖,輸入為一個純凈的語音模型(目前一般采用HMM對語音建模)和一個估計(jì)出的噪聲模型??偟膩碇v,模型補(bǔ)償依據(jù)補(bǔ)償進(jìn)行的域不同可以分為兩類:線性譜域補(bǔ)償算法和對數(shù)譜域補(bǔ)償算法。
評論