<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費電子 > 設計應用 > 智能手機的超性能語音識別技術簡介

          智能手機的超性能語音識別技術簡介

          作者: 時間:2012-06-18 來源:網(wǎng)絡 收藏

          應用到計算機桌面的時候,這看起來似乎是一個好主意。但是,對于大多數(shù)人來說,還不能取代鍵盤和鼠標。現(xiàn)在,正用于一個全新的環(huán)境:。語音中的應用將進一步推動這種技術向新的方向發(fā)展和應用。這是語音識別技術在臺式電腦應用中從來沒有涉足的方向。

          本文引用地址:http://www.ex-cimer.com/article/165434.htm

            IBM今年將紀念其創(chuàng)建100周年。IBM在60年代初期創(chuàng)建了一個名為“Shoebox”的試驗性的語音識別系統(tǒng)。這個系統(tǒng)解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現(xiàn)的,當時主要是由于好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞并且能夠回答簡單的數(shù)學問題,如“3 + 4 =?”。

            Dragon Systems在80年代初為DOS計算機推出的DragonDictate可能是第一個語音識別應用程序。這個應用程序只能識別單個單詞,每次只說一個單詞。隨著時間的推移,這個應用程序已經(jīng)發(fā)展成為名為“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產(chǎn)品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。

            語音識別技術在臺式電腦中的應用有兩個制約因素。第一,為了使這個應用程序以更高的準確性工作,這個應用程序必須要進行訓練以便識別用戶的語音特征。Windows Vista和Windows 7操作系統(tǒng)中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產(chǎn)品仍然都需要一個用戶訓練期才能使用。

            第二個制約因素是鍵盤的流行程度。大多數(shù)人已經(jīng)習慣于鍵盤打字而不是講話,因此,語音控制面臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足并且工作的很好的時候,為什么要學習使用Dvorak鍵盤呢?

            微軟TellMe團隊是負責為多媒體環(huán)境開發(fā)語音識別技術的部門。TellMe團隊高級產(chǎn)品經(jīng)理Abhi Rele指出,在臺式電腦環(huán)境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。

            語音控制的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。正是很長時間以來一直在增長的這種地方。

            Nuance負責產(chǎn)品管理和營銷的副總裁Matt Revis解釋說,臺式電腦和移動環(huán)境的區(qū)別是這樣的:臺式電腦是一個固定的環(huán)境,重點完全在于臺式電腦的使用情況。因此,臺式電腦的語音技術主要執(zhí)行如下任務:支持辦公應用程序、網(wǎng)絡瀏覽、通訊等。在移動方面,語音更多地用于支持各種生活方式方面:移動中的專業(yè)人員、戶外的有趣活動、免提電話等等。

            Gartner分析師Tuong Nguyen贊同這個觀點:語音在移動環(huán)境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。

            Nguyen補充說,如果不用語音技術說出一個簡單的說明語句,而是翻動許多菜單或者努力地在小顯示屏鍵盤上進行輸入,語音識別的價值就顯現(xiàn)出來了。隨著觸摸屏設備(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數(shù)據(jù)輸入和輸出。語音識別還支持免提要求或者法律要求。

            在移動設備方面

            因為移動設備一般僅支持臺式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現(xiàn)在手機中。

            語音處理Springer手冊解釋了手機在2000年代初的情況。盡管那時還有一些局限性,但是,手機經(jīng)過編程之后能夠識別逐個數(shù)字的撥號語音,在某種程度上還能識別人的名字。主要問題是內(nèi)存,因此,大多數(shù)手機一次只能識別10個數(shù)字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方面的營銷很糟糕。

            隨著手機的增加內(nèi)存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發(fā)布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內(nèi)存達到數(shù)百MB和存儲容量達到數(shù)GB,目前這一代手機很少受到限制。

            另一個關鍵的進步是網(wǎng)絡速度。速度更快的無線網(wǎng)絡浪潮抬高了許多大船,包括最新一代的語音處理技術。速度更快的網(wǎng)絡能夠把語音處理任務從網(wǎng)絡遷移到遠程服務器。

            谷歌語音搜索產(chǎn)品經(jīng)理Amir Mane解釋了速度更快的網(wǎng)絡是如何幫助谷歌語音應用程序的。他說,由于所有繁重的處理任務都是由谷歌服務器在網(wǎng)絡上處理的,我們減少了掌上設備計算能力的限制。

            目前的應用程序

            手機語音識別技術目前的狀態(tài)不僅僅局限于語音撥號。語音啟動的功能實際上就包括語音撥號。這是手機上出現(xiàn)的第一個語音識別功能。目前,甚至許多低端手機都有這個功能,盡管這個功能處理手機電話簿中一些不常用的名字的時稍差一些。

            Gartner分析師Nguyen指出,比較新的一代語音功能是更開放的。不用編程執(zhí)行某些功能的具體的語音指令,應用程序可識別語音并且執(zhí)行適當?shù)男袆?。更高端的、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。

            谷歌語音搜索擁有比以前的語音識別技術更少的限制,因為所有的繁重任務都是由網(wǎng)絡服務器完成的。這使谷歌語音搜索等語音驅動的應用程序更可行。例如,如果你說“創(chuàng)戰(zhàn)紀電影時間”,你會看到一個網(wǎng)頁列出地區(qū)編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網(wǎng)站(上映時間)的信息。

            這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞匯的差別。如果我說“摩特里褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞匯方便使用這個樂隊的獨特的拼寫,盡管它會漏掉變音符號。搜索“Motley's Crew”,你會得到一個喜劇片。

            這就是說谷歌語音識別的限制明顯地表明將使你進一步脫離主流的英語。外國人的名字是沒有幫助的。語音識別應用程序的另一個問題是環(huán)境的噪音。移動用戶受環(huán)境噪音的影響通常比臺式電腦用戶多。Nuance公司的Revis稱,在充滿噪音的戶外環(huán)境中,語音識別的準確性是一個問題。

            自從2005年三星的那款手機推出以來,聽寫功能已經(jīng)取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內(nèi)容。用于電子郵件的Dragon軟件為黑莓設備提供了類似的功能。

            對于Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發(fā)短信。

            文本之間的翻譯目前已經(jīng)推出多年(如通過知名的Babel Fish網(wǎng)站進行翻譯)。同聲翻譯功能現(xiàn)在還沒有,不過,這種軟件很快會推出。例如,用于iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。


          上一頁 1 2 下一頁

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();