說話人語音特征子空間分離及識(shí)別應(yīng)用
4 實(shí)驗(yàn)分析
需要通過實(shí)驗(yàn)分析的問題包括:(1)基于特征子空間識(shí)別方法的有效性?(2)子空間維數(shù)與識(shí)別性能的關(guān)系?并確定一個(gè)最佳子空間維數(shù)。(3)不同子空間距離測(cè)度下識(shí)別性能的比較分析(4)不同特征參數(shù),例如LPCC、MFCC情況下識(shí)別性能分析?(5)不同長(zhǎng)度測(cè)試語音輸入時(shí),說話人識(shí)別性能的變化趨勢(shì)?(6)在相同訓(xùn)練語音數(shù)據(jù)、實(shí)驗(yàn)環(huán)境和條件下,子空間方法和VQ、GMM等其他方法的識(shí)別性能比較分析。
4.1 實(shí)驗(yàn)數(shù)據(jù)與條件
語音數(shù)據(jù)選擇SD2002一D2數(shù)據(jù)庫,該數(shù)據(jù)庫中包含了在普通實(shí)驗(yàn)室環(huán)境下通過計(jì)算機(jī)聲音系統(tǒng)采集得到的40個(gè)說話人的280條語音片段,其中,男聲26人,女聲14人,每人分別有7段語音,每段語音包括停頓間隙長(zhǎng)度為12秒。語音采樣率為11025Hz,16位量化,單聲道輸入。實(shí)驗(yàn)中,每說話人的前4段語音用于模型訓(xùn)練,后3段用于測(cè)試。
在模型訓(xùn)練和識(shí)別測(cè)試中,預(yù)處理部分首先消除輸入語音信號(hào)的背景噪聲,保留純語音數(shù)據(jù),并進(jìn)行權(quán)重系數(shù)為0.97的高頻提升。短時(shí)分析采用27ms哈明窗,幀移步長(zhǎng)18ms。特征參數(shù)LPCC和MFCC為16階,其中,LPCC由16階LPC線性預(yù)測(cè)系數(shù)推導(dǎo)得到,MFCC是基于Mel頻率尺度的倒譜系數(shù),通過計(jì)算Mel頻率域均勻分布的19個(gè)三角濾波器組的DFT輸出,并經(jīng)DCT變換得到,實(shí)驗(yàn)中選取第l~16個(gè)系數(shù)作為特征參數(shù)。實(shí)驗(yàn)中,特征子空間采用說話人的前4段語音信號(hào)進(jìn)行訓(xùn)練,其純語音成分的長(zhǎng)度平均為32秒。測(cè)試實(shí)驗(yàn)采用每說話人的后3段語音。
4.2 不同距離測(cè)度和特征參數(shù)下子空間維數(shù)與識(shí)別性能關(guān)系分析
根據(jù)PCA原理,特征子空間可以選擇較大散度本征值對(duì)應(yīng)的本征向量為基底,這樣可以提高子空間之間的非相關(guān)性。但是,選擇的基向量不能過少,否則可能引起子空間不能充分表示語音特征的分布結(jié)構(gòu)。因此,需要在實(shí)驗(yàn)分析子空間維數(shù)與識(shí)別性能關(guān)系的基礎(chǔ)上確定一個(gè)最佳子空間維數(shù)。
將散度本征值按大小順序排列,并選取前面幾個(gè)較大本征值所對(duì)應(yīng)的本征向量作為子空間的基向量進(jìn)行分析。圖2顯示了采用LPCC特征參數(shù)以及兩種不同子空間距離測(cè)度情況下系統(tǒng)誤識(shí)率隨子空間維數(shù)變化的情況,其中測(cè)試語音長(zhǎng)度為3秒??梢钥吹剑诙N子空間距離測(cè)度總體上比第一種距離測(cè)度更優(yōu)越,但兩種測(cè)度下都顯示當(dāng)子空間維數(shù)為6時(shí)系統(tǒng)的誤識(shí)率最低。圖3顯示了采用第二種子空間距離測(cè)度時(shí),兩種特征參數(shù)LPCC和MFCC所對(duì)應(yīng)的識(shí)別性能隨維數(shù)變化的情況,其測(cè)試語音長(zhǎng)度也是3秒??梢钥吹剑琈FCC參數(shù)相對(duì)而言比LPCC要優(yōu)越些,但差距并不大。另外,從圖3同樣可以看到當(dāng)子空間維數(shù)為6時(shí)系統(tǒng)具有最佳識(shí)別性能。
根據(jù)以上實(shí)驗(yàn)結(jié)果可以得出這樣得結(jié)論:基于子空間分離的說話人識(shí)別方法是有效的,但其識(shí)別性能隨子空間維數(shù)是變化的,當(dāng)維數(shù)為6時(shí)識(shí)別性能達(dá)到最佳,誤識(shí)率僅為0.189%。因此,在以下的實(shí)驗(yàn)分析中子空間維數(shù)均采用6。
4.3 不同特征參數(shù)下識(shí)別性能與測(cè)試語音長(zhǎng)度關(guān)系分析
實(shí)際應(yīng)用中,測(cè)試語音的長(zhǎng)度不是固定的。因此,衡量一個(gè)說話人識(shí)別系統(tǒng)的識(shí)別性能必須針對(duì)不同的測(cè)試語音長(zhǎng)度進(jìn)行分析。
圖4顯示了當(dāng)采用兩種特征參數(shù)LPCC和MFCC時(shí),不同測(cè)試語音長(zhǎng)度下系統(tǒng)的識(shí)別性能情況。其中,子空間距離的計(jì)算采用第二種測(cè)度,即d2(Vt,SF)。
從圖4可以看到,所有測(cè)試語音長(zhǎng)度下系統(tǒng)都能夠得到較好的識(shí)別性能,誤識(shí)率均在3%以下,當(dāng)測(cè)試長(zhǎng)度達(dá)到5秒時(shí),MFCC對(duì)應(yīng)的誤識(shí)率趨于零,但LPCC對(duì)應(yīng)的誤識(shí)率下降趨勢(shì)慢一些。另外可以看到,采用MFCC作為特征參數(shù)時(shí)的識(shí)別性能比LPCC時(shí)優(yōu)越,但差距并不大。
4.4 子空間方法與其他方法的比較分析
說話人識(shí)別的根本性問題是模型和特征參數(shù),即用怎樣的方法去描述說話人的語音特征以及采用什么樣的參數(shù)表示說話人語音特征的問題。但到目前為止,還沒有提出專門用于說話人識(shí)別的語音特征參數(shù)和模型,常用的文本無關(guān)說話人模型有GMM和VQ。
圖5和圖6分別顯示了子空間方法與VQ和GMM方法的比較。其中,VQ碼本的碼字?jǐn)?shù)為128,GMM的混合分量數(shù)為16。可以看到,子空間方法在測(cè)試語音長(zhǎng)度小于3秒時(shí)其識(shí)別性能優(yōu)于其他方法,而在大于等于3秒時(shí)則相反。這個(gè)結(jié)果說明,GMM和VQ等完全基于統(tǒng)計(jì)聚類的方法由于運(yùn)用了說話人語音的統(tǒng)計(jì)特性,所以對(duì)于較長(zhǎng)的測(cè)試語音有較可靠的識(shí)別性能,但當(dāng)測(cè)試語音較短時(shí),由于無法提供可靠的統(tǒng)計(jì)特性進(jìn)行匹配,誤識(shí)率就很快下降。而子空間方法是根據(jù)說話人語音特征的分布散度得到的一種空間結(jié)構(gòu)性模型,由于不是完全依靠語音特征的統(tǒng)計(jì)特性,所以在較短的測(cè)試語音時(shí)也能夠得到較好的識(shí)別性能。
5 結(jié)論
依據(jù)PCA原理,從說話人語音特征觀察空間根據(jù)其分布散度特性分離出特征子空間作為說話人的一種結(jié)構(gòu)性語音模型是有效的。當(dāng)采用MFCC參數(shù),測(cè)試語音長(zhǎng)度為5秒時(shí)系統(tǒng)誤識(shí)率趨于零。特別是在小于3秒的短時(shí)測(cè)試語音情況下,其識(shí)別性能優(yōu)于其他方法。另外,子空間方法在識(shí)別時(shí)的計(jì)算量明顯小于其他方法。
說話人識(shí)別和語音識(shí)別中存在同樣的核心問題,即沒有解決說話人個(gè)性特征和語義特征的提取和描述,這個(gè)問題極難。目前主要采用的特征參數(shù)LPCC、MFCC等反映了語音信號(hào)的頻譜特征,既包含語義特征信息,又包含個(gè)性特征信息,在具體應(yīng)用中只是根據(jù)不同的識(shí)別任務(wù)進(jìn)行語義特征或個(gè)性特征的歸一化處理,主要的歸一化處理通過語音模型訓(xùn)練進(jìn)行。顯然,這樣的傳統(tǒng)方法為了使語音模型很好地表示說話人的語音特征必須通過大量的語音樣本進(jìn)行訓(xùn)練,測(cè)試時(shí)需要的語音數(shù)據(jù)也比較多。但是,實(shí)際應(yīng)用中系統(tǒng)往往沒有足夠的數(shù)據(jù)用于這類統(tǒng)計(jì)模型的訓(xùn)練和識(shí)別,因此,在考慮如何提高說話人識(shí)別系統(tǒng)魯棒性的同時(shí),需要研究少量語音數(shù)據(jù)前提下的訓(xùn)練和識(shí)別問題。基于子空間分離的說話人識(shí)別方法在短測(cè)試語音長(zhǎng)度下有一定優(yōu)勢(shì),但在較長(zhǎng)測(cè)試語音情況下識(shí)別性能提高不快。因此,今后將考慮通過子空間映射,在子空間建立說話人統(tǒng)計(jì)模型的方法來提高總體識(shí)別性能,特別是較長(zhǎng)測(cè)試語音長(zhǎng)度下的識(shí)別性能。
評(píng)論