<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費電子 > 設計應用 > 基于智能語音識別的云電視系統(tǒng)設計

          基于智能語音識別的云電視系統(tǒng)設計

          作者: 時間:2017-10-22 來源:網(wǎng)絡 收藏

            為了提高智能電視的可操作性,文章提出了一種基于智能語音設別的系統(tǒng)設計方案。該系統(tǒng)在傳統(tǒng)的智能電視上加入語音輸入和云端網(wǎng)絡技術,對語音智能處理之后達到操作電視的作用,可以通過語音輸入自動查找或者使用電視功能,提高了智能電視的可操作性,讓智能電視使用更方便,適合更多的使用人群。

          本文引用地址:http://www.ex-cimer.com/article/201710/367685.htm

            當前,隨著計算機和互聯(lián)網(wǎng)技術的高速發(fā)展、3c融合的趨勢以及電視機的數(shù)字化發(fā)展,作為家庭娛樂核心家電的電視機已經(jīng)開始向智能化多媒體網(wǎng)絡電視方向發(fā)展。智能網(wǎng)絡電視機是一臺多功能的網(wǎng)絡終端,用戶可以通過該網(wǎng)絡終端得到諸多信息和服務,然而伴隨應用功能的增加,其操作也隨之變得復雜。面對智能電視的功能復雜、操作難問題,僅僅是將電視機的紙質說明書或者做成電子文檔以flash形式在電視機上進行播放,并沒有詳細的指引用戶操作的導航功能,或者說有詳細的說明,電視面對的是任何消費者,很多功能的操作他們也不是很明白,甚至很多功能都找不到。在電子產(chǎn)品智能化的今天,智能語音設別是一個熱門話題,該技術的實現(xiàn)提高了電子產(chǎn)品的可操作性,為用戶帶來了更多的方便。所以設計一個基于智能語音設別的電視系統(tǒng),用語音來實現(xiàn)快速導航到各個需要的功能、信息、服務等應用成為當務之急。

            本系統(tǒng)為基于智能語音設別的系統(tǒng),將輸入的語音數(shù)據(jù)傳輸?shù)诫娨暀C系統(tǒng),系統(tǒng)把該模擬語音數(shù)據(jù)預處理,轉化為數(shù)字語音信號,根據(jù)各個模塊需求把數(shù)字語音數(shù)據(jù)發(fā)送到云端,云端經(jīng)過智能語義識別分析處理之后,返回具體的控制指令給電視予以處理。

            1.系統(tǒng)總體設計

            該電視系統(tǒng)結構圖如圖1所示,該系統(tǒng)分三個模塊設計,語音設別、電視系統(tǒng)處理、云端處理。在有網(wǎng)絡連接的情況下,通過麥克錄入語音,再通過語音模塊把錄入的語音轉化為特定的語音格式傳輸?shù)皆贫说闹醒敕掌?,云端服務器把傳輸過去的的語音與許多表示特定字符的語音模型進行比較,以提供輸入語音所包含特定字符的許多不同可能性。然后,云端服務器生成一個字符序列,根據(jù)基于字符的語言模型,這個字符序列表示了輸入語音中所包含已知特定字符的特定序列的不同可能性。然后字符序列通過網(wǎng)絡被傳輸?shù)街醒敕掌?,在這里,字符序列生成一個詞匯序列,根據(jù)詞匯表和基于詞匯的語言模型,這個詞匯序列表示了輸入語音中所包含已知特定字符的特定序列的不同可能性。然后,云端服務器根據(jù)詞匯表確定哪個特定詞匯序列與輸入語音最匹配,并將所確定的詞匯序列經(jīng)由網(wǎng)絡輸送回終端電視機系統(tǒng),電視機系統(tǒng)再把得到的數(shù)據(jù)分模塊處理(電視機系統(tǒng)不同模塊有不同的功能)。該電視系統(tǒng)硬件使用MIPS構架CPU,配置Linux操作系統(tǒng)。語音通過MIC輸入,設計有兩路MIC接口,使用標準的網(wǎng)絡接口用于網(wǎng)絡通信。

            2.系統(tǒng)設計

            2.1 基礎知識

            語音設別技術,也被稱為自動語音設別,即AutomaTIc Speech RecogniTIon(ASR),其目標是將人類語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人設別及說話人確認不同,后者嘗試設別或確認發(fā)出語音的說話人而非其中所包含的詞匯內容。

            系統(tǒng)本質上是一個模式識別系統(tǒng)。語音識別一般分兩個步驟,第一步是系統(tǒng)“學習”或“訓練”階段。這一階段的任務是建立識別基本單元的聲學模型以及進行文法分析的語言模型等。第二步是“識別”或“測試”階段。根據(jù)識別系統(tǒng)的類型選擇能夠滿足要求的一種識別方法,采用語音分析方法提取出這種識別方法所要求的語音特征參數(shù),按照一定的準則和測度與系統(tǒng)模型進行比較,通過判決得出識別結果。

            2.2 語音設別系統(tǒng)設計

            語音設別系統(tǒng)框圖如圖2所示。首先要把電視機麥克輸入的模擬語音信號進行預處理,云端需要數(shù)字語音信號,這里預處理使用語音IC進行處理,包括預濾波、采樣和量化、信號數(shù)字化、加窗、斷點檢測、預加重等。語音信號經(jīng)過預處理后,接下來重要的一環(huán)就是特征參數(shù)提取,其目的是從語音波形中提取出隨時間變化的語音特征序列。把特征提取的結果送到電視機操作系統(tǒng)中進行判斷處理,分析是否需要將其傳送到云端服務器,云端服務器在對接收到的語音進行智能分析處理之后傳回電視機終端,進行相應的功能處理。

            2.3 云端服務器智能處理

            云端服務器處理主要針對數(shù)字化語音數(shù)據(jù)進行分析處理,本系統(tǒng)的功能比較復雜,語音處理工作量非常大,該設計基于云計算的服務器來完成,在服務器端對語音進行分析處理的同時還需要進行智能設別,該智能設別主要針對本電視機系統(tǒng)的一些關鍵字及語音的語義分析,同時對于電視機的不同模塊進行分別處理,來完成使用者所想的功能。使用云計算服務器可以減少電視機終端的硬件成本,增加處理速度,來達到對用戶命令的智能處理。

            2.3.1 電視機與云端的傳輸協(xié)議

            對于特定的電視機系統(tǒng),每個模塊具有特定的關鍵字,在傳輸數(shù)據(jù)到云端的時候,需要傳輸模塊特征和相應的語音數(shù)據(jù)。

            2.3.2 語音訓練與識別的主要方法

            在云端接收到數(shù)據(jù)之后,需要對語音數(shù)據(jù)進行設別。語音訓練與識別是一個模式訓練和識別的過程。模式訓練是指依照一定的規(guī)則,對大量訓練信息進行處理,獲取能夠反映該信息本質特征的模型參數(shù),將從這些訓練信息中得到的模型參數(shù)組合成一個模式庫,而模式匹配則是指依據(jù)一定的規(guī)則規(guī)范,將輸入的未知模式與模式庫中的模式進行匹配,從模式庫中尋找一個相似度最高,即最佳匹配的模式。這種訓練和匹配的方法有許多種,目前較常見的方法主要有動態(tài)時間規(guī)整(DTW)、隱馬爾可夫鏈(HMM)模型、人工神經(jīng)網(wǎng)絡(ANN)等。

            2.3.3 隱馬爾可夫鏈模型

            本系統(tǒng)用隱馬爾可夫鏈(Hidden Markov Models,HMM)模型來對語音進行訓練和識別,在隱馬爾可夫鏈模型中,它使用馬爾可夫鏈來模擬信號統(tǒng)計特性的變化,本質上它是一個雙重隨機過程的概率模型。第一重隨機過程的概率模型是指由馬爾可夫鏈來表示狀態(tài)之間的轉移,另外一重隨機過程的概率模型是指每個狀態(tài)和多個觀測值之間的隨機對應關系。在實際問題的應用中,HMM的雙重隨機過程觀察者不能直接看到狀態(tài),只能看到觀察值,且只有利用一個隨機過程去感知狀態(tài)的存在以及特征。本質上說,人類的語言過程也是一個雙重隨機過程。語音信號本身是一個能夠被觀測到的時變序列,是由人的大腦根據(jù)語法知識和言語的需要而發(fā)出的音素的參數(shù)流,這部分就相對于 HMM模型中不可觀測的各種狀態(tài)。HMM模型可以很好地模擬這個雙重隨機過程,并且很好地描述了語音信號的局部平穩(wěn)性以及整體的非平穩(wěn)性,是一種描述語音信號的理想模型。

            2.3.4 智能語音識別

            此處采用的關鍵字識別系統(tǒng)為基于連續(xù)語音識別(LVCSR)的關鍵詞識別系統(tǒng),如圖3所示,使用這種結構適用于連續(xù)語音關鍵詞識別系統(tǒng):語言經(jīng)過連續(xù)語音音節(jié)識別器后,產(chǎn)生相應的N-Best詞格或音節(jié)網(wǎng)格,然后使用關鍵詞搜索算法對網(wǎng)格進行關鍵詞搜索。其過程可以大致分成三步:第一步,搜索語音基元,也就是說通過這次搜索得到輸入語音對應的拼音序列。通過連續(xù)解碼,可以得到一個N- Best音節(jié)序列或者音節(jié)的網(wǎng)格。第二步,針對電視機終端功能模塊選擇不同的關鍵詞表。第三步,根據(jù)上一步得到的音節(jié)序列和關鍵詞詞表對照,進行關鍵詞的搜索,得到假象命中(可能成為關鍵詞的詞)。第四步,根據(jù)其他知識源分析第三步得到的假想命中的置信度,給出關鍵詞識別的結果。第五步,對第四步輸出的關鍵字結果進行智能處理,根據(jù)特定的電視機系統(tǒng)功能模塊給出最終的輸出結果。

            3.電視機智能語音識別處理軟件流程

            3.1 錄音檢測

            電視機智能語音識別處理流程圖如圖4,在需要使用語音設別時,首先需要按下錄音鍵,這個時候系統(tǒng)會檢測網(wǎng)絡是否連接和麥克是否可以正常使用,如果其中有一項檢測失敗,系統(tǒng)不會做錄音工作,提示檢查網(wǎng)絡或者檢查麥克。

            3.2 錄音處理

            在設備檢測之后,進行錄音,由于系統(tǒng)限制,錄音有時間限制,不能太長。電視機終端把麥克錄下的語音進行預處理和特征提取,然后再把語音和模塊特征一起傳輸?shù)皆贫朔掌?,云端服務器再做細致的處理,處理之后再把?shù)據(jù)傳回終端電視機。

            3.3 智能功能處理

            在電視機終端等待接收數(shù)據(jù),在5秒之內沒有接收到數(shù)據(jù),視為TIme out,數(shù)據(jù)處理失敗。如果接收到數(shù)據(jù)后做相應的處理,在云端就有對各個模塊的關鍵字識別,將傳回的數(shù)據(jù)再針對相應的模塊做判斷處理。比如在主功能界面,如果語音輸入“shezhi”,系統(tǒng)將進入設置界面?;蛘咴谟耙暯缑妫绻斎?ldquo;halibote”,系統(tǒng)會查找哈利波特這部影片。

            4.實驗應用

            由于電視系統(tǒng)在使用過程中情況比較復雜,通過語音設別的準確率也有一些差異。為了得到相對準確的數(shù)據(jù),測試分幾種情況,一種是在電視系統(tǒng)沒有播放audio的時候和在播放audio的時候,另一種是輸入語音的長度不一致的情況。

            4.1 測試嘈雜環(huán)境試驗

            這個測試分兩種情況,一種是沒有播放audio的時候(或者說audio mute的時候),一種是在有播放audio的時候(由于audio播放時分貝不一樣,所以以各種嘈雜環(huán)境的綜合值為主),實驗結果見表1:

            4.2 測試改變輸入關鍵字長度試驗

            本系統(tǒng)為智能語音設別,需要做智能分析,通過輸入語音來判斷系統(tǒng)的動作,關鍵是在語音設別的準確性和智能識別處理上,而輸入關鍵字的長度對系統(tǒng)的準確性判斷相當關鍵。本次實驗就是針對長度不一致的輸入做分析,實驗結果見表2:

            從兩個測試來看,系統(tǒng)識別準確率相當高,實驗達到了預期的效果。關鍵是在特殊環(huán)境下進行處理時,本系統(tǒng)在識別之后還有關鍵字和智能處理,以達到更好的智能處理。

            5.結語

            該系統(tǒng)采用了高效的語音設別技術和穩(wěn)定的MIPS硬件平臺為基礎,軟件設計上以Linux操作系統(tǒng)為基礎,在原有的智能電視系統(tǒng)上使用云計算處理語音數(shù)據(jù),使之系統(tǒng)處理實時性更高。通過測試表明,該系統(tǒng)能非常準確地判斷語音輸入,數(shù)據(jù)處理速度快,系統(tǒng)穩(wěn)定性高。此系統(tǒng)達到了在電視系統(tǒng)中使用智能語音設別的功能,這樣通過語音操作,大大提高了系統(tǒng)的可操作性,使之使用方便,更加智能化。



          關鍵詞: 語音識別 云電視

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();