<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費電子 > 設計應用 > 基于DTW的編碼域說話人識別研究

          基于DTW的編碼域說話人識別研究

          作者: 時間:2010-10-14 來源:網(wǎng)絡 收藏

          本文引用地址:http://www.ex-cimer.com/article/166450.htm

          3 實驗結果與性能分析及結論
           為測試上述識別性能,對其進行了固定文本的說話人識別試驗。試驗中,采用電話信道863語料庫30個說話人共300個錄音文件,文件格式為16 bit線性PCM。為了模擬VoIP中語音壓縮幀,使用G.729聲碼器對原始語音文件進行壓縮。使用每個說話人的一個文件訓練成為模板。測試語音長度為10 s~60 s以5 s為間隔的共11個測試時間標準。這樣,模板庫中有30個模板,測試語音有270個,使用微機配置是:CPU Pentium 2.0 GHz,內存512 MB。
           在實驗中,M和N取64,通過各模版間的匹配,確定了判決門限為0.3時,識別效果最佳。
           為了對比DTW算法的識別性能,采用在傳統(tǒng)說話人識別中廣泛使用的GMM模型作為對比實驗,其中GMM模型使用與DTW算法相同的編碼流特征。
          圖4給出基于DTW識別方法與GMM模型(混元數(shù)64)識別G.729編碼方案863語料庫的文本相關說話人的誤識率對比圖。橫坐標代表的測試語音的時長,縱坐標代表識別誤識率。由實驗結果可知在文本相關的說話人識別中,基于DTW算法的識別率在絕大多數(shù)情況下高于GMM模型,且隨著測試語音的增長,優(yōu)勢更明顯。

           為比較特征提取的時間性能和總的時間性能,實驗條件如下:
          (1)選擇的50個說話人的語音只進行特征提取,測試語音長度總和在25 min左右;
          (2)對測試語音分別進行解碼識別和編碼流的識別,模板數(shù)為10個;
          (3)微機配置為:CPU Pentium 2.0 GHz,內存512 MB。
          表1為特征提取時間比較結果,表2為說話人識別時間比較結果。

           由實驗結果可以看出,在編碼比特流中進行特征提取時間和識別的(上接第121頁)時間都遠小于解碼重建后的語音特征提取時間和識別時間,滿足實時說話人識別的需要。
          在文本相關的說話人識別中,對比使用同樣G.729壓縮碼流特征的GMM模型, DTW方法的識別率和處理效率均高于GMM模型,能夠實時應用于VoIP網(wǎng)絡監(jiān)管中。
          參考文獻
          [1] 石如亮.編碼域說話人識別技術研究[D].鄭州:解放軍信息工程大學,2007.
          [2] PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
          [3] 石如亮,李弼程,張連海,等. 基于編碼比特流的說話人識別[J].信息工程大學學報,2007,8(3): 323-326.
          [4] 王炳錫,屈丹,彭煊.實用語音識別基礎[M].北京:國防工業(yè)出版社,2004: 264-286.
          [5] 李邵梅,劉力雄,陳鴻昶.實時說話人辨別系統(tǒng)中改進的DTW算法[J].計算機工程,2008,34(4):218-219.
          [6] DUNN R B, QUATIERI T F, REYNOLDS D A. et al. Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
          [7] AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.


          上一頁 1 2 3 下一頁

          關鍵詞: 編解碼器 音頻

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();