基于DTW的編碼域說話人識(shí)別研究

作者：時(shí)間：2010-10-14 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
　參考文獻(xiàn)[1]發(fā)現(xiàn)識(shí)別特征加入G.729壓縮幀中的語(yǔ)音增益參數(shù)，說話人識(shí)別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2，結(jié)果發(fā)現(xiàn)，當(dāng)采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2)，識(shí)別性能得到了提高，所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2)，共7維。
2 動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法
　動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù)。該算法基于動(dòng)態(tài)規(guī)劃思想，解決了發(fā)音長(zhǎng)短不一的模版匹配問題。
　算法原理：假設(shè)測(cè)試語(yǔ)音和參考語(yǔ)音分別用R和T表示，為了比較它們之間的相似度，可以計(jì)算它們之間的距離D[T，R]，距離越小則相似度越高。具體實(shí)現(xiàn)中，先對(duì)語(yǔ)音進(jìn)行預(yù)處理，再把R和T按相同時(shí)間間隔劃分成幀系列：

然后采用動(dòng)態(tài)規(guī)劃進(jìn)行識(shí)別。如圖2所示。

本文引用地址：http://www.ex-cimer.com/article/166450.htm

把測(cè)試模版的各個(gè)幀號(hào)n＝1,…,N在一個(gè)二維直角坐標(biāo)系的橫軸上標(biāo)出，把參考模版的各幀號(hào)m＝1,…,M在縱軸上標(biāo)出，通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出的橫縱線即可形成一個(gè)網(wǎng)格，網(wǎng)格中的每一個(gè)交叉點(diǎn)(n，m)表示測(cè)試模版中某一幀與訓(xùn)練模版中某一幀的交叉點(diǎn)。動(dòng)態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑，路徑通過的格點(diǎn)即為測(cè)試和參考模版中距離計(jì)算的幀號(hào)。

　整個(gè)算法主要?dú)w結(jié)為計(jì)算測(cè)試幀和參考幀間的相似度及所選路徑的矢量距離累加。
　識(shí)別流程如圖3所示。

上一頁(yè) 1 2 3 下一頁(yè)

新聞中心

基于DTW的編碼域說話人識(shí)別研究

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)