<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 消費(fèi)電子 > 業(yè)界動態(tài) > 語音識別這么火但你知道它的發(fā)展史嗎？

語音識別這么火但你知道它的發(fā)展史嗎？

作者：時間：2016-12-01 來源：機(jī)器人圈

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

編者按：在計(jì)算機(jī)能理解其所聽到或看到的事物的真正含義之前，還需要很長時間的工作，還有很長的路要走，真正的人工智能仍然還在遙遠(yuǎn)的地平線上。

　　語言，之所以重要，在于人類的思維能力是伴隨著它的產(chǎn)生而迅速發(fā)展的，這也是人類在智能上區(qū)別于其他物種的原因。語音識別，作為人工智能應(yīng)用的一個場景，也是研究者們一直試圖解決的問題。

本文引用地址：http://www.ex-cimer.com/article/201612/340933.htm 語音識別這么火但你知道它的發(fā)展史嗎？

語音識別這么火但你知道它的發(fā)展史嗎？

　　2016年10月底，微軟宣布語音識別實(shí)現(xiàn)了歷史性突破，詞錯率僅5.9%，英語的語音轉(zhuǎn)錄達(dá)到專業(yè)速錄員水平，微軟的此次突破是機(jī)器的識別能力在英語水平上第一次超越人類。微軟的這條消息發(fā)布之后在業(yè)內(nèi)引起了極大的關(guān)注。語音識別一直是國內(nèi)外許多科技公司重點(diǎn)發(fā)展的技術(shù)之一，百度首席科學(xué)家吳恩達(dá)就發(fā)推特恭賀微軟在英語語音識別上的突破，同時也回憶起一年前百度在漢語語音識別上的突破，其Deep Speech2的短語識別的詞錯率已經(jīng)降到了3.7%，Deep Speech2轉(zhuǎn)錄某些語音的能力基本上是超人級的，能夠比普通話母語者更精確地轉(zhuǎn)錄較短的查詢。

　　夢想從貝爾實(shí)驗(yàn)室開始

　　不久前，麻省理工學(xué)院(MIT)主辦的知名科技期刊《麻省理工科技評論》(MITTechnologyReview)，評選出了“2016年十大突破技術(shù)”?！堵槭±砉た萍荚u論》稱，在過去的一年里，這十項(xiàng)技術(shù)均已到達(dá)一個里程碑式的階段或即將到達(dá)這一階段。而語音識別的突破就是其中的第三項(xiàng)。

　　回顧人類發(fā)展史，不難看出，隨著人的不斷進(jìn)化，從最初通過手掌、肢體使用簡單工具、傳遞簡單信息，發(fā)展到控制發(fā)聲并通過耳朵接收，形成了一個以語音為載體的快速信息傳遞通道和收發(fā)閉環(huán)，成為人類間最自然、最重要的信息交互手段。聲波作為一種音頻信號，和視頻信號、無線電信號一樣是，非接觸方式的傳播，也是人類唯一可以不借助工具就可自由掌控的一種天然“無線”資源。而且聲波對接收指向性的要求更寬松，這個非常寶貴的特性會在很多場景下帶來極大便利。特別是對于一些在視覺、觸覺等方面存在障礙(如老年人、弱視、殘障人士)或不適合(如兒童需要保護(hù)視力)的龐大特定人群，語音更是最佳的交互選擇。

　　1946年，現(xiàn)代電子計(jì)算機(jī)出現(xiàn)后，計(jì)算機(jī)在很多事情上做得比人還好，既然如此，機(jī)器能不能懂得自然語言呢?與機(jī)器進(jìn)行語音交流，讓它聽明白你在說什么，語音識別技術(shù)是計(jì)算機(jī)一出現(xiàn)，人類就開始憧憬的一大夢想。

　　最早提出機(jī)器智能概念的是計(jì)算機(jī)科學(xué)之父阿蘭·圖靈，1950年他在《思想》(Mind)雜志上發(fā)表了一篇題為“計(jì)算的機(jī)器和智能”的論文。在論文中，圖靈并沒有提出什么研究方法，而是提出了一種驗(yàn)證機(jī)器是否有智能的方法：讓人和機(jī)器進(jìn)行交流，如果人無法判斷自己交流的對象是人還是機(jī)器，就說明這個機(jī)器有智能了。這種方法被后人稱作圖靈測試。圖靈其實(shí)是留下了一個問題，而非答案，但是一般認(rèn)為對自然語言的機(jī)器處理可以追溯到那個時候。

　　科學(xué)家認(rèn)為語音識別就好比“機(jī)器的聽覺系統(tǒng)”，該技術(shù)可以讓機(jī)器通過識別和理解，把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。1952年，貝爾研究所，Davis等人研制了世界上第一個能識別10個英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年，英國的Denes等人研制了第一個計(jì)算機(jī)語音識別系統(tǒng)。

　　事實(shí)上，語音識別60多年的發(fā)展過程可以分成多個階段。早期的20多年，即從20世紀(jì)50年代到70年代，是科學(xué)家們走彎路的階段，全世界的科學(xué)家對計(jì)算機(jī)完成語音識別這類只有人才能做的事情，認(rèn)為必須先讓計(jì)算機(jī)理解自然語言，這就局限在人類學(xué)習(xí)語言的方式上了，也就是用電腦模擬人腦，這20多年的研究成果近乎為零。

　　賈里尼克的貢獻(xiàn)

　　直到1970年后，統(tǒng)計(jì)語言學(xué)的出現(xiàn)才使語音識別重獲新生，并取得了今天的飛凡成就。推動這個技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物是德里克·賈里尼克(FrederickJelinek)和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室(T.J.Watson)，開始使用統(tǒng)計(jì)方法。采用統(tǒng)計(jì)的方法，IBM將當(dāng)時的語音識別率從70%提升到90%，同時語音識別的規(guī)模從幾百單詞上升到幾萬單詞，這樣語音識別就有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。

　　《從水門事件到莫妮卡·萊溫斯基》是賈里尼克在1999年ICASSP(國際聲學(xué)、語言和信號處理大會)做的報告題目，因?yàn)樗T事件發(fā)生的時間1972年，恰好是統(tǒng)計(jì)語音識別開始的時間，而因萊溫斯基事件彈劾克林頓總統(tǒng)正好發(fā)生于當(dāng)時會議的前一年。

　　賈里尼克在康奈爾十年磨一劍，潛心研究信息論，終于悟出了真諦。1972年，賈里尼克到IBM華生實(shí)驗(yàn)室做學(xué)術(shù)休假，無意中領(lǐng)導(dǎo)了語音識別實(shí)驗(yàn)室，兩年后他在康奈爾和IBM之間選擇了留在IBM。

　　20世紀(jì)70年代的IBM有點(diǎn)像90年代的微軟和過去十年(施密特時代)的Google，任由杰出科學(xué)家做自己感興趣的研究。在那種寬松的環(huán)境里，賈里尼克等人提出了統(tǒng)計(jì)語音識別的框架結(jié)構(gòu)。

　　在賈里尼克之前，科學(xué)家們把語音識別問題當(dāng)作人工智能和模式匹配問題，而賈里尼克將它當(dāng)作通信問題，并用兩個隱含馬爾可夫模型(聲學(xué)模型和語言模型)把語音識別概括得清清楚楚。這個框架結(jié)構(gòu)至今仍對語音識別影響深遠(yuǎn)，它不僅從根本上使得語音識別有使用的可能，而且奠定了今天自然語言處理的基礎(chǔ)。賈里尼克后來也因此當(dāng)選美國工程院院士，并被Technology雜志評為20世紀(jì)100名發(fā)明家之一。

　　賈里尼克的前輩們在將統(tǒng)計(jì)的方法應(yīng)用于語音識別時，遇到了兩個不可逾越的障礙：缺乏計(jì)算能力強(qiáng)大的計(jì)算機(jī)和大量可以用于統(tǒng)計(jì)的機(jī)讀文本語料，最后前輩們不得不選擇放棄。20世紀(jì)的IBM，雖然計(jì)算機(jī)的計(jì)算能力不能和今天相比，但已可以做不少事了，賈里尼克和他的同事需要解決的問題就是如何找到大量的機(jī)讀語料。好在當(dāng)時有一項(xiàng)全球性的業(yè)務(wù)是通過電信網(wǎng)連接在一起的，那就是電傳，IBM的科學(xué)家最初就是通過電傳業(yè)務(wù)的文本開始進(jìn)行研究的。

　　為什么當(dāng)初是沒有什么語音識別基礎(chǔ)的IBM，而不是在這個領(lǐng)域里有很長研究時間的貝爾實(shí)驗(yàn)室或者卡內(nèi)基-梅隆大學(xué)提出統(tǒng)計(jì)語音識別的處理。很多歷史的偶然性背后都有著它必然的原因，因?yàn)镮BM有著這樣的計(jì)算能力，又有物質(zhì)條件，同時聚集了一大批世界上最聰明的頭腦。

　　基于統(tǒng)計(jì)的語音識別替代基于規(guī)則的前后方法交替經(jīng)歷了15年時間。之所以歷經(jīng)許久，是因?yàn)樾碌难芯糠椒ǔ墒煨枰芏嗄辍?/p>

上一頁 1 2 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 語音識別

評論

相關(guān)推薦

便攜設(shè)備中集成“一直聽”的語音觸發(fā)方案

nakey | 2016-03-09

目前有哪些比較好用的離線語音識別模塊呢？

從小就是電子迷 | 2021-08-18

語音模組重啟及聲音輸出異常淺析

消費(fèi)電子 202106 智能家居語音識別可靠性 | 2021-07-12

美媒：人工智能實(shí)現(xiàn)“聞聲識人” 但遠(yuǎn)未達(dá)到完美

智能計(jì)算人工智能語音識別神經(jīng)網(wǎng)絡(luò) | 2019-06-17

大聯(lián)大品佳集團(tuán)推出基于MediaTek產(chǎn)品的亞馬遜智能物聯(lián)網(wǎng)語音識別方案

物聯(lián)網(wǎng)與傳感器大聯(lián)大品佳 MediaTek 亞馬遜語音識別 | 2022-09-08

本科畢業(yè)設(shè)計(jì)：一種基于發(fā)育思想的語音識別系統(tǒng)實(shí)現(xiàn)

資源下載語音識別人工智能自主式機(jī)器發(fā)育思想自組織映射網(wǎng)絡(luò) 簡單反饋神經(jīng)網(wǎng)絡(luò) | 2007-04-19

基于聯(lián)合得分的連續(xù)語音識別確認(rèn)方法

資源下載似然比檢驗(yàn) 備擇模型語音確認(rèn) 語音識別 | 2007-04-19

語音識別及其定點(diǎn)DSP實(shí)現(xiàn)

設(shè)計(jì)方案語音識別 DSP C語言 | 2015-03-28

談?wù)劗?dāng)前：離線語音識別與在線語音識別的優(yōu)缺點(diǎn)

白嶺 | 2020-02-18

AT32上實(shí)現(xiàn)關(guān)鍵詞語音識別（KWS）

Hoopzhao | 2022-09-18

基于STM32智能家居系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

設(shè)計(jì)方案 STM32 語音識別服務(wù)器智能家居 | 2015-03-21

ZLG深度解析語音識別技術(shù)

ZLG 語音識別 | 2019-03-02

語音識別中的離線和在線識別有何區(qū)別或特點(diǎn)？

萬世浮華 | 2020-10-15

孤立詞語音識別系統(tǒng)的DSP實(shí)現(xiàn)

設(shè)計(jì)方案孤立詞 DSP 語音識別 | 2015-03-28

4 調(diào)用 Google 語音識別

視頻 Android Wear 圖靈機(jī)器人 Google 語音識別 | 2015-07-07

人工智能探境科技之得“芯”應(yīng)手

智能計(jì)算人工智能（AI）神經(jīng)網(wǎng)絡(luò)處理器（NPU）深度學(xué)習(xí) 語音識別 202008 中國芯 | 2020-07-24

基于Infineon SoC藍(lán)牙CYW20835之智能遙控器方案

物聯(lián)網(wǎng)與傳感器英飛凌藍(lán)牙 BT 遙控器紅外信號傳感器語音識別 2.4g 語音遙控 cyw20835 | 2023-08-02

微軟197億美元完成對Nuance的收購目標(biāo)不止在于語音識別市場

微軟 Nuance 收購語音識別 | 2022-03-10

JavaScript語音識別庫-Julius

視頻 JavaScript 語音識別 Julius | 2015-07-07

電視機(jī)智能聲控選合系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

資源下載語音識別彩電遙控智能聲控選臺 | 2007-02-16

基于DTW模型的語音識別

資源下載 DTW模型語音識別 MATLAB | 2007-04-19

賽昉科技重磅發(fā)布全球首款基于RISC-V人工智能視覺處理平臺 ——驚鴻7100

驚鴻7100 RISC-V指令集深度學(xué)習(xí) 圖像處理語音識別機(jī)器視覺 | 2020-10-10

新一代語音識別：可徹底改變車內(nèi)體驗(yàn)的技術(shù)

汽車電子語音識別生物識別人工智能 | 2024-07-18

語音識別在遙控系統(tǒng)中的應(yīng)用設(shè)計(jì)

資源下載語音識別 DTW FED FRED 學(xué)習(xí)型遙控器 | 2007-04-19

利用MEMS麥克風(fēng)陣列定位并識別音頻或語音信源的技術(shù)方案

設(shè)計(jì)方案 ARM處理器 MEMS STM32F4 語音識別 | 2015-03-23

Nuance語音識別技術(shù)

設(shè)計(jì)方案語音識別 Nuance 消費(fèi)電子 | 2015-02-03

美光高性能內(nèi)存與存儲，推動 AI 豐富殘障人士生活體驗(yàn)

網(wǎng)絡(luò)與存儲語音識別生成式AI 機(jī)器學(xué)習(xí) 內(nèi)存 | 2023-12-07

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();