<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 醫(yī)療電子 > 設(shè)計(jì)應(yīng)用 > 基于PCANN的說話人識別方法研究

          基于PCANN的說話人識別方法研究

          作者: 時間:2012-06-01 來源:網(wǎng)絡(luò) 收藏

          1引言

          本文引用地址:http://www.ex-cimer.com/article/198973.htm

          說話人是根據(jù)從說話人所發(fā)語音中提取信息判斷說話人身份的過程。語音信號中包含了話音特征和說話人個性特征,說話人的關(guān)鍵問題之一是提取反映說話人個性的語音特征參數(shù)。在說話人系統(tǒng)中常用的語音特征參數(shù)主要有,LPC 倒譜系數(shù)(LPCC) 、Mel 頻率倒譜系數(shù)(MFCC)、線譜對(LSP)等 。在純凈語音環(huán)境中,系統(tǒng)已經(jīng)達(dá)到很好的識別性能,但是在實(shí)際應(yīng)用的環(huán)境中,由于背景噪聲的存在,系統(tǒng)往往達(dá)不到令人滿意的效果。

          主分量分析PCA (primary component analyze)是統(tǒng)計(jì)學(xué)中一種根據(jù)數(shù)據(jù)的統(tǒng)計(jì)分布特性,提取數(shù)據(jù)主要成分的數(shù)據(jù)處理方法. 它是最小均方誤差下的最優(yōu)正交變換,對消除模式間的相關(guān)性、突出模式間差異性有最佳的效果,所以常被用于數(shù)據(jù)的壓縮和模式識別的特征提取 . 由于它需要對原始數(shù)據(jù)的方差矩陣進(jìn)行估值并求取其特征值和特征向量, 計(jì)算量異常巨大, 而基于神經(jīng)網(wǎng)絡(luò)的主分量分析算法不必進(jìn)行矩陣求逆運(yùn)算,并且神經(jīng)網(wǎng)絡(luò)具有并行運(yùn)算能力, 這將降低PCA 計(jì)算量, 提高PCA 的實(shí)用性 。對語音信號的原始特征作主分量分析后往往能得到更好的特征參數(shù) 。本文選用LPC倒譜系數(shù)作為表征聲道的特征參數(shù),采用相繼的幾幀組成的特征參數(shù)矢量作為樣本,對其進(jìn)行主分量分析,這樣去除了特征中的冗余信息,壓縮特征參數(shù)的維數(shù),得到新的PCA特征參數(shù),然后把PCA特征參數(shù)作為GMM模型的輸入向量,進(jìn)行說話人識別的訓(xùn)練和識別。

          本文第二節(jié)介紹主分量分析神經(jīng)網(wǎng)絡(luò)的原理和算法,第三節(jié)介紹高斯混和模型和LPCC特征參數(shù),第四節(jié)給出相應(yīng)的說話人識別系統(tǒng)實(shí)驗(yàn)和結(jié)果,最后是簡要的討論與展望。

          2主分量神經(jīng)網(wǎng)絡(luò)()

          主分量神經(jīng)網(wǎng)絡(luò)是基于Hebb 學(xué)習(xí)規(guī)則的線性無監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò), 它可以通過對權(quán)矩陣W 的學(xué)習(xí), 使W接近于原始數(shù)據(jù)X的關(guān)聯(lián)矩陣C中特征值所對應(yīng)的特征向量, 而不必進(jìn)行矩陣求逆運(yùn)算,提高了運(yùn)算速度。
          2.1 基于Hebb學(xué)習(xí)的最大特征濾波器

          2.2 基于Hebb 學(xué)習(xí)的主分量分析網(wǎng)絡(luò)

          1.jpg

          圖3:提取前m個主分量的神經(jīng)網(wǎng)絡(luò)解析圖

          3識別系統(tǒng)特征參數(shù)以及模型

          3.1 語音的主分量特征參數(shù)(PCA特征)
          本文選用線性預(yù)測倒譜系數(shù)(LPCC)作為語音的原始特征參數(shù)然后對其進(jìn)行主分量分析。LPCC系數(shù)是一種非常重要的特征參數(shù)。它的主要優(yōu)點(diǎn)是比較徹底地去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道相應(yīng),而且往往只要十幾個倒譜系數(shù)就能較好地描述語音信號的共振峰特性,因此在識別中取得了較好的效果。在實(shí)際計(jì)算中,LPCC參數(shù)不是由信號直接得到的,而是由LPC系數(shù)得到的。關(guān)系式如下:


          (8)
          這里 實(shí)際上是直流分量,反映頻譜能量,其值的大小不影響譜形,在識別中通常不用,也不去計(jì)算。當(dāng)LPCC系數(shù)個數(shù)不大于LPC系數(shù)個數(shù)時用第二式,當(dāng)LPCC系數(shù)個數(shù)大于LPC系數(shù)個數(shù)時,用第三式進(jìn)行計(jì)算。

          4實(shí)驗(yàn)及結(jié)果分析
          本文實(shí)現(xiàn)了一個在噪聲環(huán)境下與文本無關(guān)的說話人自動識別系統(tǒng)。使用的是一個含20人的語音數(shù)據(jù)庫,包括10名男性和10名女性,每人語音長度約90秒。采樣率為12kHz,采用16bit量化。

          首先對數(shù)據(jù)進(jìn)行預(yù)處理,包括端點(diǎn)檢測、預(yù)加重(H(z)=1-0.95 )和加窗(Hamming窗,幀長20ms,幀移10ms)。原始特征選為12階的LPCC倒譜參數(shù),主分量特征個數(shù)選12階。高斯模型混合數(shù)M=16。訓(xùn)練音長為40s,測試音為3s。實(shí)驗(yàn)結(jié)果如表(1):

          表1 實(shí)驗(yàn)結(jié)果(%)

          1.jpg

          圖(4)是根據(jù)表(1)中的數(shù)據(jù)畫出的曲線。

          從表(1)可以看出,與傳統(tǒng)的GMM方法相比,_GMM方法明顯增強(qiáng)系統(tǒng)抗噪聲能力,改進(jìn)了識別效果。并且在_GMM中,幀數(shù)不同對識別也有較小的影響,當(dāng)幀數(shù)大于5幀時,系統(tǒng)的識別性能不再提高。

          5總結(jié)

          本文運(yùn)用PCANN/GMM方法進(jìn)行說話人識別,將多幀特征參數(shù)合并為一幀,利用了幀間相關(guān)性,對其進(jìn)行主分量分析,減少了冗余度,提高了系統(tǒng)的魯棒性。另外,當(dāng)前的說話人識別研究還主要集中在聲學(xué)特征層次進(jìn)行,基于人們說話中含有的高級特征所進(jìn)行的研究雖然很多,下一步的工作將結(jié)合聲學(xué)特征和高級特征,研究它們之間的關(guān)系,從而進(jìn)一步提高說話人識別系統(tǒng)的性能。

          參考文獻(xiàn)

          [1] 趙力. 語音信號處理 北京:機(jī)械工業(yè)出版社,2003
          [2] E.Oja. “A Simplified Neural Model as a Principal Components Analyzer”,Journal of Mathematic Biology,VOL.19,pp.267-273,1982
          [3] Sanger T D. “Optimal Unsupervised Learing In a Singer Layer Linear Feedforward Neural Network”,Neural Networks, pp459-473, 1989
          [4] 何振亞 顧明亮 語音信號的主分量特征 應(yīng)用科學(xué)學(xué)報(bào), VOL 17,NO.4,1999
          [5] Simon Haykin. 神經(jīng)網(wǎng)絡(luò)原理. 北京:機(jī)械工業(yè)出版社, 2004
          [6] Chanchal Chatterjee. and Vwani P.Roychowdhury. “On Relative Convergence Properties of Principal Component Analysis Algorithms”,IEEE Transactions On Neural Networks, VOL.9,NO.2,March 1998
          [7] Oh-Wook Kwon. and Kwokleung Chan. “Speech Feather Analysis Using Variational Bayesian PCA”,IEEE Signal Processing Letters,VOL.10,NO.5,May 2003



          關(guān)鍵詞: PCANN 識別 方法研究

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();