<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費電子 > 設計應用 > 基于DTW的編碼域說話人識別研究

          基于DTW的編碼域說話人識別研究

          作者: 時間:2010-10-14 來源:網(wǎng)絡 收藏

          說話人識別又被稱為話者識別,是指通過對說話人語音信號的分析處理,自動確認說話人是否在所記錄的話者集合中,以及進一步確認說話人的身份。說話人識別的基本原理如圖1所示。

          本文引用地址:http://www.ex-cimer.com/article/166450.htm

          按照語音的內容,說話人識別可以分為文本無關的(Text-Independent)和文本相關的(Text-Dependent)兩種。文本無關的識別系統(tǒng)不規(guī)定說話人的發(fā)音內容,模型建立相對困難,但用戶使用方便。與文本有關的說話人識別系統(tǒng)要求用戶按照規(guī)定的內容發(fā)音,而識別時也必須按規(guī)定的內容發(fā)音,因此可以達到較好的識別效果。
           隨著網(wǎng)絡技術的發(fā)展,通過Internet網(wǎng)絡傳遞語音的網(wǎng)絡電話VoIP(Voice over IP)技術發(fā)展迅速,已經(jīng)成為人們日常交流的重要手段,越來越多的用戶拋棄傳統(tǒng)的通信方式,通過計算機網(wǎng)絡等媒介進行語音交流。由于VoIP工作方式的特點,語音在傳輸中經(jīng)過了語音編譯碼處理,VoIP設備端口同時要處理多路、海量的壓縮話音數(shù)據(jù)。所以VoIP說話人識別技術主要研究的是如何高速、低復雜度地針對解碼參數(shù)和壓縮碼流進行說話人識別。
           現(xiàn)有的針對編碼域說話人識別方法的研究主要集中在編碼域語音特征參數(shù)的提取上,香港理工大學研究從G.729和G.723編碼比特流以及殘差中提取信息,并采用了分數(shù)補償?shù)姆椒?。中國科學技術大學主要研究了針對AMR語音編碼的說話人識別。西北工業(yè)大學在說話人確認中針對不同的語音編碼差異進行了補償算法研究,并且研究了直接在G.729編碼的比特流中提取參數(shù)的方法。說話人模型則主要采用在傳統(tǒng)說話人識別中應用最廣泛的GMM-UBM(Gaussian Mixture Model-Universal Background Model)。GMM-UBM的應用效果和混元數(shù)目密切相關,在保證識別率的基礎上,其處理速度無法滿足VoIP環(huán)境下高速說話人識別的需求。
           本文研究VoIP語音流中G.729編碼域的說話人實時識別,將DTW識別算法成功應用在G.729編碼域的文本相關的說話人實時識別。
          1 G.729編碼比特流中的特征提取
          1.1 G.729編碼原理

           ITU-T在1996年3月公布G.729編碼,其編碼速率為8 kb/s,采用了對結構代數(shù)碼激勵線性預測技術(CS-ACELP),編碼結果可以在8 kb/s的碼率下得到合成音質不低于32 kb/s ADPCM的水平。 G.729的算法延時為15 ms。由于G.729具有很高的語音質量和很低的延時,被廣泛地應用在數(shù)據(jù)通信的各個領域,如VoIP和H.323網(wǎng)上多媒體通信系統(tǒng)等。
          G.729的編碼過程如下:輸入8 kHz采樣的數(shù)字語音信號先經(jīng)過高通濾波預處理,每10 ms幀作一次線性預測分析,計算10階線性預測濾波器系數(shù),然后把這些系數(shù)轉換為線譜對(LSP)參數(shù),采用兩級矢量量化技術進行量化。自適應碼本搜索時,以原始語音與合成語音的誤差知覺加權最小為測度進行搜索。固定碼本采用代數(shù)碼本機構。激勵參數(shù)(自適應碼本和固定碼本參數(shù))每個子幀(5 ms,40個樣點)確定一次。
          1.2 特征參數(shù)提取
          直接從G.729 編碼流中按照量化算法解量化可以得到LSP參數(shù)。由于后段的說話人識別系統(tǒng)還需要激勵參數(shù),而在激勵參數(shù)的計算過程中經(jīng)過了LSP的插值平滑,所以為了使特征矢量中聲道和激勵參數(shù)能準確地對應起來,要對解量化的LSP參數(shù)采用插值平滑。


          上一頁 1 2 3 下一頁

          關鍵詞: 編解碼器 音頻

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();