<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 測(cè)試測(cè)量 > 設(shè)計(jì)應(yīng)用 > 基于語音識(shí)別的IVR系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

          基于語音識(shí)別的IVR系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

          作者: 時(shí)間:2009-02-20 來源:網(wǎng)絡(luò) 收藏

          4 模塊的實(shí)現(xiàn)
          的開發(fā)可以采用基于模板匹配的動(dòng)態(tài)時(shí)間規(guī)整(DTW)、基于統(tǒng)計(jì)參數(shù)模型的隱馬爾可夫模型(HMM),神經(jīng)網(wǎng)絡(luò)等技術(shù),他們都是針對(duì)某些具體應(yīng)用的,其模型參數(shù)的獲得需要對(duì)大規(guī)模的樣本進(jìn)行學(xué)習(xí),對(duì)于非特定人往往需要采集數(shù)百人的語音樣本,其工作量是相當(dāng)大的。隨著語音研究的不斷發(fā)展,已經(jīng)出現(xiàn)了眾多的語音識(shí)別開發(fā)工具:如Microsoft Speech SDK,IBM ViaVoice等。他們都提供了語音識(shí)別和語音合成的二次開發(fā)平臺(tái),并且微軟的Speech SDK是完全免費(fèi)的,它具有識(shí)別率高,識(shí)別速度快,可移植性好,支持多種語言等優(yōu)點(diǎn)。因此它被廣泛應(yīng)用于各個(gè)領(lǐng)域。

          4.1 Microsoft Speech SDK 5.1簡(jiǎn)介
          SAPI SDK是微軟公司免費(fèi)提供的語音應(yīng)用開發(fā)工具包,這個(gè)SDK中包含了語音應(yīng)用設(shè)計(jì)接口(SAPI)、微軟的連續(xù)語音識(shí)別引擎(MCSR)以及微軟的語音合成(TTS)引擎等等。目前的5.1版本一共可以支持3種語言的識(shí)別 (英語,漢語和日語)以及2種語言的合成(英語和漢語)。SAPI中還包括對(duì)于低層控制和高度適應(yīng)性的直接語音管理、訓(xùn)練向?qū)?、事件、語法編譯、資源、語音識(shí)別(SR)管理以及TTS管理等強(qiáng)大的設(shè)計(jì)接口。

          語音識(shí)別的功能主要由一系列COM接口協(xié)調(diào)完成。其中主要的接口有下面這些:

          IspRecognizer接口:用于創(chuàng)建語音識(shí)別引擎的實(shí)例,識(shí)別引擎有兩種:獨(dú)占引擎(InProcRecognizer)和共享引擎(SharedRecognizer)。獨(dú)占的引擎對(duì)象是在本程序的進(jìn)程中創(chuàng)建,只能由本應(yīng)用程序使用,而共享的引擎是在一個(gè)單獨(dú)的進(jìn)程中創(chuàng)建,可以供多個(gè)應(yīng)用程序共同使用。

          IspRecoContext接口:主要用于接受和發(fā)送與語音識(shí)別消息相關(guān)的事件消息,裝載和卸載識(shí)別語法資源

          IspRecoGrammar接口:通過這個(gè)接口,應(yīng)用程序可以載入并激活語法規(guī)則,而語法規(guī)則里定義了待識(shí)別的單詞、短語和句子。通常語法規(guī)則有兩種:聽寫語法(DictationGrammer)和命令控制語法(CommandandControlGrammer)。聽寫語法用于連續(xù)語音識(shí)別,可以識(shí)別出引擎詞典中大量的詞匯;命令控制語法用于識(shí)別用戶自定義的詞匯。

          IspPhrase接口:通過這個(gè)接口,應(yīng)用程序可以獲得識(shí)別信息,如:如識(shí)別結(jié)果、識(shí)別的規(guī)則、語義標(biāo)示和屬性信息等。

          IspAudioPlug接口:通過這個(gè)接口,應(yīng)用程序可以將內(nèi)存中的語音數(shù)據(jù)送到語音識(shí)別引擎,進(jìn)行識(shí)別。

          4.2 識(shí)別模塊的具體實(shí)現(xiàn)
          由于命令控制語法方式可以限制識(shí)別的詞匯量,并且這種識(shí)別技術(shù)不需要對(duì)說話人事先進(jìn)行訓(xùn)練,因此在實(shí)際應(yīng)用中具有較高的魯棒性和較高的識(shí)別效率。本的識(shí)別詞匯包括:“車輛信息查詢”、“駕駛證信息查詢”和26個(gè)英文字母10個(gè)數(shù)字,我們首先編寫了包含這些特定詞匯的語法文件。

          在使用接口函數(shù)前,首先調(diào)用CoInitialize(NULL)初始化COM對(duì)象,然后創(chuàng)建語音識(shí)別引擎、語法規(guī)則上下文和識(shí)別語法,并調(diào)用函數(shù)LoadCmdFromFile裝載文法識(shí)別規(guī)則。微軟識(shí)別引擎是通過SAPI由事件觸發(fā)來通知上層的應(yīng)用程序??梢哉{(diào)用SetInterest來注冊(cè)自己感興趣的事件。默認(rèn)的事件為SPEI_RECOGNITION,該事件表明當(dāng)前已有識(shí)別結(jié)果返回,這時(shí)上層應(yīng)用程序可以通過調(diào)用ISpRecoResult接口的GetText方法獲得識(shí)別結(jié)果。

          微軟識(shí)別引擎的語音輸入有多種方式,通常都是通過聲卡直接輸入,也可以通過其他語音輸入流。本系統(tǒng)的語音數(shù)據(jù)是從語音卡取得的實(shí)時(shí)數(shù)據(jù),將其存入內(nèi)存,然后通過調(diào)用ISpAudioPlug的SetData方法將其送入識(shí)別引擎。

          4.3 系統(tǒng)實(shí)現(xiàn)的難點(diǎn)和解決方案
          車牌的識(shí)別詞匯中包含10個(gè)數(shù)字和26個(gè)英文字母,這些詞匯的發(fā)音有許多是相同或相近的,比如:E和1,R和2,T和7,D和B,M和N,X和S。這些詞匯在識(shí)別時(shí)很容易產(chǎn)生誤識(shí),有的甚至完全不能識(shí)別。如果單從算法上來考慮,是很難解決這些問題的。因此我們考慮從系統(tǒng)的流程出發(fā),當(dāng)用戶認(rèn)為識(shí)別有誤時(shí),可以輸入識(shí)別錯(cuò)誤的位數(shù),然后系統(tǒng)根據(jù)用戶的輸入,提供幾個(gè)備選結(jié)果,供用戶選擇,這樣極大的提高了系統(tǒng)識(shí)別率。

          然而Microsoft Speech SDK 5.1在命令控制語法方式下是不提供多選的,只有在聽寫方式下才提供多選,但是聽寫方式下的詞匯量又無法限制。對(duì)此我們的想法是這樣的:當(dāng)系統(tǒng)識(shí)別出結(jié)果以后,將有效語音段保存起來,并且把識(shí)別結(jié)果從命令控制方式下的詞匯量中移除,然后將保存有效語音段再次送入識(shí)別引擎,當(dāng)系統(tǒng)識(shí)別出結(jié)果以后,再次重復(fù)以上步驟,直到識(shí)別出給定個(gè)數(shù)的結(jié)果。

          5 操作方法
          用戶用清晰、自然的語調(diào)說出需查詢信息的類別,如:車輛信息查詢、駕駛證信息查詢,系統(tǒng)識(shí)別模塊識(shí)別出結(jié)果后,轉(zhuǎn)入相應(yīng)的信息查詢模塊。當(dāng)用戶需要查詢車輛信息時(shí),首先要求用清晰、較緩慢的語調(diào)說出車牌號(hào),系統(tǒng)識(shí)別模塊識(shí)別出結(jié)果后,通過TTS將結(jié)果播放給用戶。這時(shí)用戶可以輸入車牌號(hào)碼中識(shí)別錯(cuò)誤的位數(shù),系統(tǒng)根據(jù)用戶的輸入提供7個(gè)備選結(jié)果讓用戶進(jìn)行選擇。用戶選擇確認(rèn)無誤后,系統(tǒng)將結(jié)果遞交給后臺(tái)數(shù)據(jù)庫進(jìn)行查詢,并將檢索到的信息播放給用戶。

          6 試驗(yàn)結(jié)果及分析
          對(duì)于信息類別的識(shí)別由于其詞匯量少,音節(jié)較多,所以識(shí)別率很高,達(dá)到了100%。但是對(duì)于字母和數(shù)字的組合識(shí)別,由于其詞匯量較多,音節(jié)簡(jiǎn)單,而且有大量相同和相近的詞匯,很容易受到噪聲的干擾,所以識(shí)別率不是很理想。然而,當(dāng)我們提供七個(gè)備選結(jié)果后,即使在有一定噪音的環(huán)境下,系統(tǒng)的識(shí)別率達(dá)也能達(dá)到96%以上。由此表明該系統(tǒng)是穩(wěn)定的和實(shí)用的。


          上一頁 1 2 下一頁

          關(guān)鍵詞: IVR 語音識(shí)別 系統(tǒng)

          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();