基于DTW的編碼域說(shuō)話人識(shí)別研究
本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語(yǔ)音增益參數(shù),說(shuō)話人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識(shí)別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
2 動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法
動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想,解決了發(fā)音長(zhǎng)短不一的模版匹配問題。
算法原理:假設(shè)測(cè)試語(yǔ)音和參考語(yǔ)音分別用R和T表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。具體實(shí)現(xiàn)中,先對(duì)語(yǔ)音進(jìn)行預(yù)處理,再把R和T按相同時(shí)間間隔劃分成幀系列:
然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。本文引用地址:http://www.ex-cimer.com/article/166450.htm
把測(cè)試模版的各個(gè)幀號(hào)n=1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出,把參考模版的各幀號(hào)m=1,…,M在縱軸上標(biāo)出,通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測(cè)試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過的格點(diǎn)即為測(cè)試和參考模版中距離計(jì)算的幀號(hào)。
整個(gè)算法主要?dú)w結(jié)為計(jì)算測(cè)試幀和參考幀間的相似度及所選路徑的矢量距離累加。
識(shí)別流程如圖3所示。
評(píng)論