基于聽覺特性的聲紋識別系統(tǒng)的研究
在本文的實驗系統(tǒng)中,語音特征參數(shù)依次使用了12階LPCC以及12階MFCC。最后選定12階MFCC參數(shù)。本課題建立的是與文本有關(guān)的聲紋身份確認(rèn)系統(tǒng),用于測試模型是連續(xù)CHMM模型。
實驗中我們用的是30 ms的漢明窗,依次計算它的特征參數(shù),分別使用了12階LPCC和12階MFCC(24個Mel濾波器,語音信號的幀長度為256,信號的采樣頻率為8 000 Hz)和由此推導(dǎo)出的一階MFCC差分參數(shù)。LPCC特征和MFCC特征識別率比較如表4所示。
表4顯示了在測試人數(shù)為10人時,在相同的幀長下,MFCC特征的識別性能高于LPCC特征。這個結(jié)論又一次證明了倒譜特征的可區(qū)分性測度優(yōu)于LPCC特征。
實驗中,我們把第一個說話人的語音“9”,作為實驗研究樣本。圖2是數(shù)字“9”的語音波形圖,圖3是數(shù)字“9”的語譜圖。
MFCC參數(shù)是按幀計算的,在這里語音幀長度是256,信號采樣頻率是8 kHz,采用24個濾波器,MFCC特征階數(shù)是12。MFCC的優(yōu)點是在噪聲的環(huán)境下,可以表現(xiàn)出對環(huán)境更強的魯棒性。接下來一步要做的是對語音特征矢量序列進(jìn)行矢量量化,矢量量化的數(shù)據(jù)壓縮效果相當(dāng)好,因此進(jìn)行語音處理經(jīng)常要用到。在本文的實驗中,采用LBG法聚類生成碼書。矢量量化之后這些語音特征參數(shù)就轉(zhuǎn)變成語音模型。緊接著可以開始進(jìn)行下一步的操作。
在訓(xùn)練階段,對數(shù)字1~9建立HMM模型,就要對10個人進(jìn)行每個數(shù)字10遍訓(xùn)練。第一天訓(xùn)練,第二天檢測。每天一遍,一共兩遍,首先把語音信號做端點檢測,然后根據(jù)特征量計算出MFCC系數(shù)序列后,這里要用Baum-Welch算法建立各個說話人的HMM模型庫。測試階段,先保持和訓(xùn)練階段一樣,提取說話人測試語音中的特征矢量,然后根據(jù)維特比算法,并以各個說話人的HMM模板為參照,計算出來該輸入序列的生成概率,根據(jù)最大的輸出概率進(jìn)行判決結(jié)果。對于本課題研究的身份確認(rèn)系統(tǒng),把概率值與判決門限相比較,其值大于或等于判決門限的聲音作為受測者本人的聲音被接受,小于門限的被拒絕。
2.2 實驗結(jié)果分析
本文的實驗是與文本有關(guān)的說話人身份確認(rèn)系統(tǒng)。在實驗中,分別按照不同人數(shù)進(jìn)行訓(xùn)練,但是測試語音數(shù)保持不變。任意抽3個人朗讀數(shù)字,在隨后的實驗中我們依次確定實驗人數(shù)為5,7和10時,這時可以看出識別率會有一些大的差異。其結(jié)果如表5所示。
實驗中的語音特征是MFCC,所用模型是連續(xù)CHMM,每一數(shù)字模型有4個狀態(tài)。在這個身份確認(rèn)系統(tǒng)中,在二值判定的前提下,確認(rèn)受測者是否是之前所認(rèn)定的某人。從表5可以看到識別的時間比較短,當(dāng)有10個人訓(xùn)練時,識別率最大。為了訓(xùn)練出可靠的參數(shù)模型,必須加大訓(xùn)練集的數(shù)據(jù)。本實驗由于條件限制,實驗語音模板庫比較小,訓(xùn)練數(shù)據(jù)不太充足,影響系統(tǒng)的一定性能。當(dāng)訓(xùn)練數(shù)據(jù)足夠大時,得修改補充一下程序的流程。本實驗中系統(tǒng)的識別率達(dá)到了90%以上。
3 結(jié)論
本文的實驗達(dá)到了預(yù)期的實驗效果,基本完成了身份確認(rèn)的目標(biāo)。但是針對語音的特征提取和模式匹配,在實驗中難免會出現(xiàn)一些誤差,出現(xiàn)誤認(rèn)識和拒認(rèn)識的偏差。對于說話人確認(rèn)系統(tǒng),雖然說從理論上來說,識別率和登錄的說話者量無關(guān),但是實際上對于二值判定的說話人確認(rèn)系統(tǒng)也會隨著登錄人數(shù)的增減而有所改變,怎么樣才能確保有足夠多的登錄者,登錄到說話人確認(rèn)系統(tǒng)中,而它的識別率問題仍然是一個很大的課題。
評論