<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費電子 > 設(shè)計應用 > 基于DTW的編碼域說話人識別研究

          基于DTW的編碼域說話人識別研究

          作者: 時間:2010-10-14 來源:網(wǎng)絡 收藏



           本文選擇G.729編碼幀中第一子幀的LSP(1)參數(shù)的反余弦LSF及由其轉(zhuǎn)換得到的LPC、LPCC參數(shù)作為聲道特征參數(shù)。
           參考文獻[1]發(fā)現(xiàn)識別特征加入G.729壓縮幀中的語音增益參數(shù),說話人識別性能發(fā)生了下降。去除G.729壓縮碼流特征中的增益參數(shù)GA1、GB1、GA2、GB2,結(jié)果發(fā)現(xiàn),當采用了去除增益參數(shù)的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
          2 動態(tài)時間規(guī)整(DTW)識別算法
           動態(tài)時間規(guī)整DTW(Dynamic Time Warping)是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù)。該算法基于動態(tài)規(guī)劃思想,解決了發(fā)音長短不一的模版匹配問題。
           算法原理:假設(shè)測試語音和參考語音分別用R和T表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。具體實現(xiàn)中,先對語音進行預處理,再把R和T按相同時間間隔劃分成幀系列:

          然后采用動態(tài)規(guī)劃進行識別。如圖2所示。

          本文引用地址:http://www.ex-cimer.com/article/166450.htm

          把測試模版的各個幀號n=1,…,N在一個二維直角坐標系的橫軸上標出,把參考模版的各幀號m=1,…,M在縱軸上標出,通過這些表示幀號的整數(shù)坐標畫出的橫縱線即可形成一個網(wǎng)格,網(wǎng)格中的每一個交叉點(n,m)表示測試模版中某一幀與訓練模版中某一幀的交叉點。動態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點的路徑,路徑通過的格點即為測試和參考模版中距離計算的幀號。

           整個算法主要歸結(jié)為計算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。
           識別流程如圖3所示。



          關(guān)鍵詞: 編解碼器 音頻

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();