<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 模擬技術(shù) > 設(shè)計(jì)應(yīng)用 > 說話人語音特征子空間分離及識(shí)別應(yīng)用

說話人語音特征子空間分離及識(shí)別應(yīng)用

作者：時(shí)間：2009-08-10 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

收藏

設(shè)系統(tǒng)需要識(shí)別的M個(gè)說話人對(duì)應(yīng)的子空間分別為SF1~SFM，經(jīng)過模式匹配得到輸入測(cè)試語音St與各子空間的距離SFD1～SFDM，則識(shí)別判決準(zhǔn)則如下：

本文引用地址：http://www.ex-cimer.com/article/188757.htm

4 實(shí)驗(yàn)分析
需要通過實(shí)驗(yàn)分析的問題包括：(1)基于特征子空間識(shí)別方法的有效性?(2)子空間維數(shù)與識(shí)別性能的關(guān)系?并確定一個(gè)最佳子空間維數(shù)。(3)不同子空間距離測(cè)度下識(shí)別性能的比較分析(4)不同特征參數(shù)，例如LPCC、MFCC情況下識(shí)別性能分析?(5)不同長(zhǎng)度測(cè)試語音輸入時(shí)，說話人識(shí)別性能的變化趨勢(shì)?(6)在相同訓(xùn)練語音數(shù)據(jù)、實(shí)驗(yàn)環(huán)境和條件下，子空間方法和VQ、GMM等其他方法的識(shí)別性能比較分析。
4．1 實(shí)驗(yàn)數(shù)據(jù)與條件
語音數(shù)據(jù)選擇SD2002一D2數(shù)據(jù)庫，該數(shù)據(jù)庫中包含了在普通實(shí)驗(yàn)室環(huán)境下通過計(jì)算機(jī)聲音系統(tǒng)采集得到的40個(gè)說話人的280條語音片段，其中，男聲26人，女聲14人，每人分別有7段語音，每段語音包括停頓間隙長(zhǎng)度為12秒。語音采樣率為11025Hz，16位量化，單聲道輸入。實(shí)驗(yàn)中，每說話人的前4段語音用于模型訓(xùn)練，后3段用于測(cè)試。
在模型訓(xùn)練和識(shí)別測(cè)試中，預(yù)處理部分首先消除輸入語音信號(hào)的背景噪聲，保留純語音數(shù)據(jù)，并進(jìn)行權(quán)重系數(shù)為0．97的高頻提升。短時(shí)分析采用27ms哈明窗，幀移步長(zhǎng)18ms。特征參數(shù)LPCC和MFCC為16階，其中，LPCC由16階LPC線性預(yù)測(cè)系數(shù)推導(dǎo)得到，MFCC是基于Mel頻率尺度的倒譜系數(shù)，通過計(jì)算Mel頻率域均勻分布的19個(gè)三角濾波器組的DFT輸出，并經(jīng)DCT變換得到，實(shí)驗(yàn)中選取第l～16個(gè)系數(shù)作為特征參數(shù)。實(shí)驗(yàn)中，特征子空間采用說話人的前4段語音信號(hào)進(jìn)行訓(xùn)練，其純語音成分的長(zhǎng)度平均為32秒。測(cè)試實(shí)驗(yàn)采用每說話人的后3段語音。
4．2 不同距離測(cè)度和特征參數(shù)下子空間維數(shù)與識(shí)別性能關(guān)系分析
根據(jù)PCA原理，特征子空間可以選擇較大散度本征值對(duì)應(yīng)的本征向量為基底，這樣可以提高子空間之間的非相關(guān)性。但是，選擇的基向量不能過少，否則可能引起子空間不能充分表示語音特征的分布結(jié)構(gòu)。因此，需要在實(shí)驗(yàn)分析子空間維數(shù)與識(shí)別性能關(guān)系的基礎(chǔ)上確定一個(gè)最佳子空間維數(shù)。
將散度本征值按大小順序排列，并選取前面幾個(gè)較大本征值所對(duì)應(yīng)的本征向量作為子空間的基向量進(jìn)行分析。圖2顯示了采用LPCC特征參數(shù)以及兩種不同子空間距離測(cè)度情況下系統(tǒng)誤識(shí)率隨子空間維數(shù)變化的情況，其中測(cè)試語音長(zhǎng)度為3秒?？梢钥吹剑诙N子空間距離測(cè)度總體上比第一種距離測(cè)度更優(yōu)越，但兩種測(cè)度下都顯示當(dāng)子空間維數(shù)為6時(shí)系統(tǒng)的誤識(shí)率最低。圖3顯示了采用第二種子空間距離測(cè)度時(shí)，兩種特征參數(shù)LPCC和MFCC所對(duì)應(yīng)的識(shí)別性能隨維數(shù)變化的情況，其測(cè)試語音長(zhǎng)度也是3秒?？梢钥吹剑琈FCC參數(shù)相對(duì)而言比LPCC要優(yōu)越些，但差距并不大。另外，從圖3同樣可以看到當(dāng)子空間維數(shù)為6時(shí)系統(tǒng)具有最佳識(shí)別性能。

根據(jù)以上實(shí)驗(yàn)結(jié)果可以得出這樣得結(jié)論：基于子空間分離的說話人識(shí)別方法是有效的，但其識(shí)別性能隨子空間維數(shù)是變化的，當(dāng)維數(shù)為6時(shí)識(shí)別性能達(dá)到最佳，誤識(shí)率僅為0．189％。因此，在以下的實(shí)驗(yàn)分析中子空間維數(shù)均采用6。
4．3 不同特征參數(shù)下識(shí)別性能與測(cè)試語音長(zhǎng)度關(guān)系分析
實(shí)際應(yīng)用中，測(cè)試語音的長(zhǎng)度不是固定的。因此，衡量一個(gè)說話人識(shí)別系統(tǒng)的識(shí)別性能必須針對(duì)不同的測(cè)試語音長(zhǎng)度進(jìn)行分析。
圖4顯示了當(dāng)采用兩種特征參數(shù)LPCC和MFCC時(shí)，不同測(cè)試語音長(zhǎng)度下系統(tǒng)的識(shí)別性能情況。其中，子空間距離的計(jì)算采用第二種測(cè)度，即d2(Vt，SF)。

從圖4可以看到，所有測(cè)試語音長(zhǎng)度下系統(tǒng)都能夠得到較好的識(shí)別性能，誤識(shí)率均在3％以下，當(dāng)測(cè)試長(zhǎng)度達(dá)到5秒時(shí)，MFCC對(duì)應(yīng)的誤識(shí)率趨于零，但LPCC對(duì)應(yīng)的誤識(shí)率下降趨勢(shì)慢一些。另外可以看到，采用MFCC作為特征參數(shù)時(shí)的識(shí)別性能比LPCC時(shí)優(yōu)越，但差距并不大。
4．4 子空間方法與其他方法的比較分析
說話人識(shí)別的根本性問題是模型和特征參數(shù)，即用怎樣的方法去描述說話人的語音特征以及采用什么樣的參數(shù)表示說話人語音特征的問題。但到目前為止，還沒有提出專門用于說話人識(shí)別的語音特征參數(shù)和模型，常用的文本無關(guān)說話人模型有GMM和VQ。
圖5和圖6分別顯示了子空間方法與VQ和GMM方法的比較。其中，VQ碼本的碼字?jǐn)?shù)為128，GMM的混合分量數(shù)為16。可以看到，子空間方法在測(cè)試語音長(zhǎng)度小于3秒時(shí)其識(shí)別性能優(yōu)于其他方法，而在大于等于3秒時(shí)則相反。這個(gè)結(jié)果說明，GMM和VQ等完全基于統(tǒng)計(jì)聚類的方法由于運(yùn)用了說話人語音的統(tǒng)計(jì)特性，所以對(duì)于較長(zhǎng)的測(cè)試語音有較可靠的識(shí)別性能，但當(dāng)測(cè)試語音較短時(shí)，由于無法提供可靠的統(tǒng)計(jì)特性進(jìn)行匹配，誤識(shí)率就很快下降。而子空間方法是根據(jù)說話人語音特征的分布散度得到的一種空間結(jié)構(gòu)性模型，由于不是完全依靠語音特征的統(tǒng)計(jì)特性，所以在較短的測(cè)試語音時(shí)也能夠得到較好的識(shí)別性能。

5 結(jié)論
依據(jù)PCA原理，從說話人語音特征觀察空間根據(jù)其分布散度特性分離出特征子空間作為說話人的一種結(jié)構(gòu)性語音模型是有效的。當(dāng)采用MFCC參數(shù)，測(cè)試語音長(zhǎng)度為5秒時(shí)系統(tǒng)誤識(shí)率趨于零。特別是在小于3秒的短時(shí)測(cè)試語音情況下，其識(shí)別性能優(yōu)于其他方法。另外，子空間方法在識(shí)別時(shí)的計(jì)算量明顯小于其他方法。
說話人識(shí)別和語音識(shí)別中存在同樣的核心問題，即沒有解決說話人個(gè)性特征和語義特征的提取和描述，這個(gè)問題極難。目前主要采用的特征參數(shù)LPCC、MFCC等反映了語音信號(hào)的頻譜特征，既包含語義特征信息，又包含個(gè)性特征信息，在具體應(yīng)用中只是根據(jù)不同的識(shí)別任務(wù)進(jìn)行語義特征或個(gè)性特征的歸一化處理，主要的歸一化處理通過語音模型訓(xùn)練進(jìn)行。顯然，這樣的傳統(tǒng)方法為了使語音模型很好地表示說話人的語音特征必須通過大量的語音樣本進(jìn)行訓(xùn)練，測(cè)試時(shí)需要的語音數(shù)據(jù)也比較多。但是，實(shí)際應(yīng)用中系統(tǒng)往往沒有足夠的數(shù)據(jù)用于這類統(tǒng)計(jì)模型的訓(xùn)練和識(shí)別，因此，在考慮如何提高說話人識(shí)別系統(tǒng)魯棒性的同時(shí)，需要研究少量語音數(shù)據(jù)前提下的訓(xùn)練和識(shí)別問題。基于子空間分離的說話人識(shí)別方法在短測(cè)試語音長(zhǎng)度下有一定優(yōu)勢(shì)，但在較長(zhǎng)測(cè)試語音情況下識(shí)別性能提高不快。因此，今后將考慮通過子空間映射，在子空間建立說話人統(tǒng)計(jì)模型的方法來提高總體識(shí)別性能，特別是較長(zhǎng)測(cè)試語音長(zhǎng)度下的識(shí)別性能。

上一頁 1 2 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：語音分離 識(shí)別 子空間

評(píng)論

相關(guān)推薦

2 語音云開放平臺(tái)介紹

視頻科大訊飛 Android 語音 | 2015-07-07

AI語音獨(dú)角獸“思必馳”宣布完成數(shù)億元Pre-IPO輪融資

消費(fèi)電子 AI 語音獨(dú)角獸思必馳 | 2020-08-27

車內(nèi)語音市場(chǎng)活躍，ROHM推出帶播放音檢測(cè)功能的芯片

汽車電子車載語音 | 2020-06-05

智能型多芯片數(shù)碼語音錄放電路

資源下載語音芯片數(shù)碼錄放電路 | 2007-12-25

基于ESP32S3的智能家居控制面板系統(tǒng)設(shè)計(jì)

202308 ESP32S3 智能家居控制面板 WiFi 語音 | 2023-08-26

ZY1420B高保真語音錄放模塊

資源下載致遠(yuǎn)電子高保真語音錄放 ZY1420B | 2007-03-30

亞馬遜硬件部門今年或虧損100億美元語音助手成\"無底洞\"

消費(fèi)電子亞馬遜硬件語音 | 2022-11-23

El axer? 所有雞蛋，呃？Alexa！從噪音中拾取清晰語

智能計(jì)算 202109 語音人工智能 | 2021-09-15

智能電梯控制

視頻信息技術(shù)大賽 kinetis k10 語音感應(yīng)器 | 2013-01-18

便攜式有害氣體預(yù)警器

視頻信息技術(shù)大賽單片機(jī) STC15F2K60S2 傳感器語音便攜式 | 2013-01-18

RFID 身份識(shí)別解決方案

資源下載周立功單片機(jī) RFID 身份識(shí)別 | 2007-03-30

多路語音同傳系統(tǒng)

視頻信息技術(shù)大賽 FPGA EP1C3T100C8N 語音 | 2013-01-16

瑞薩推出面向圖形顯示應(yīng)用和語音/視覺多模態(tài)AI應(yīng)用的全新RA8 MCU產(chǎn)品群

嵌入式系統(tǒng) 瑞薩圖形顯示應(yīng)用語音/視覺多模態(tài)AI MCU | 2023-12-12

IP電話語音質(zhì)量的評(píng)價(jià)與分析

liujt_ic | 2002-12-31

電話嵌入式語音技術(shù)離我們有多遠(yuǎn)？

hpnet | 2002-08-21

數(shù)字脈沖編碼調(diào)制語音合成系列

設(shè)計(jì)方案數(shù)字脈沖編碼調(diào)制語音合成系列 | 2009-07-06

基于語音和紅外遙控的無線病床呼叫控制系統(tǒng)*

醫(yī)療電子語音紅外遙控單片機(jī) 醫(yī)護(hù)人員病人 202105 | 2021-05-13

蘋果布局醫(yī)療健康熱情不減，這一次瞄準(zhǔn)了抑郁癥識(shí)別

醫(yī)療電子蘋果抑郁癥識(shí)別 | 2021-09-22

自動(dòng)語音記錄監(jiān)控系統(tǒng)

jackwang | 2002-08-16

1 科大訊飛語音服務(wù)概述

視頻科大訊飛 Android 語音 | 2015-07-07

陣列式語音合成系列

設(shè)計(jì)方案列式語音合成系列 | 2009-07-06

自適應(yīng)脈沖編碼語音合成系列

設(shè)計(jì)方案適應(yīng) 脈沖編碼語音合成系列 | 2009-07-06

API840N 40秒多功能可編程語音電路

資源下載語音語音電路 API840N 40秒 | 2007-12-25

語音錄放和處理資料

資源下載語音錄放和處理 | 2007-03-27

如何編寫手寫輸入識(shí)別引擎??？(老站轉(zhuǎn))

amine | 2002-07-29

人工智能用于識(shí)別野外的靈長(zhǎng)類動(dòng)物面孔

智能計(jì)算人工智能分析錄像識(shí)別跟蹤 | 2020-06-29

One UI 6.1 導(dǎo)致 Galaxy S23 系列手機(jī)指紋識(shí)別出問題

手機(jī)與無線通信 One UI 6.1 Galaxy S23 手機(jī)指紋識(shí)別 | 2024-04-08

VOIP：IP語音技術(shù)

xiaohua | 2002-12-05

語音音樂語音合成系列

設(shè)計(jì)方案語音音樂合成系列 | 2009-07-06

LCD微處理器語音合成系列

設(shè)計(jì)方案微處理器語音合成系列 | 2009-07-06

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();