<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 消費(fèi)電子 > 業(yè)界動(dòng)態(tài) > 科大訊飛首度披露新一代語音識(shí)別系統(tǒng)技術(shù)原理

科大訊飛首度披露新一代語音識(shí)別系統(tǒng)技術(shù)原理

作者：時(shí)間：2016-02-05 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

收藏

　　12月21日，作為國內(nèi)智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者，科大訊飛在北京國家會(huì)議中心召開了以“AI復(fù)始，萬物更新”為主題的2015年年度發(fā)布會(huì)。在發(fā)布會(huì)上，科大訊飛介紹了訊飛超腦計(jì)劃的最新進(jìn)展，并發(fā)布了數(shù)款讓人印象深刻的創(chuàng)新型產(chǎn)品。特別值得一提的是，在發(fā)布會(huì)現(xiàn)場(chǎng)，科大訊飛全球首次將演講人的演講，同步轉(zhuǎn)寫成文字在大屏幕顯示，敢于接受現(xiàn)場(chǎng)數(shù)千參會(huì)者和數(shù)千萬觀看視頻直播觀眾的檢驗(yàn)，系統(tǒng)的轉(zhuǎn)寫效果之好讓大家直呼驚艷。此次發(fā)布會(huì)轉(zhuǎn)寫系統(tǒng)就是依托于訊飛全球領(lǐng)先的中文語音識(shí)別系統(tǒng)。今天，我們就為大家從技術(shù)上揭秘科大訊飛的新一代語音識(shí)別系統(tǒng)。

本文引用地址：http://www.ex-cimer.com/article/201602/286779.htm

　　眾所周知，自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在大規(guī)模語音識(shí)別任務(wù)上獲得顯著效果提升以來，DNN在語音識(shí)別領(lǐng)域受到越來越多的關(guān)注，目前已經(jīng)成為主流語音識(shí)別系統(tǒng)的標(biāo)配。然而，更深入的研究成果表明，DNN結(jié)構(gòu)雖然具有很強(qiáng)的分類能力，但是其針對(duì)上下文時(shí)序信息的捕捉能力是較弱的，因此并不適合處理具有長時(shí)相關(guān)性的時(shí)序信號(hào)。而語音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào)，這種相關(guān)性主要體現(xiàn)在說話時(shí)的協(xié)同發(fā)音現(xiàn)象上，往往前后好幾個(gè)字對(duì)我們正要說的字都有影響，也就是語音的各幀之間具有長時(shí)相關(guān)性。

　　

　　圖1：DNN和RNN示意圖

　　相比前饋型神經(jīng)網(wǎng)絡(luò)DNN，循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)在隱層上增加了一個(gè)反饋連接，也就是說，RNN隱層當(dāng)前時(shí)刻的輸入有一部分是前一時(shí)刻的隱層輸出，這使得RNN可以通過循環(huán)反饋連接看到前面所有時(shí)刻的信息，這賦予了RNN記憶功能，如圖1所示。這些特點(diǎn)使得RNN非常適合用于對(duì)時(shí)序信號(hào)的建模，在語音識(shí)別領(lǐng)域，RNN是一個(gè)近年來替換DNN的新的深度學(xué)習(xí)框架，而長短時(shí)記憶模塊(Long-Short Term Memory, LSTM)的引入解決了傳統(tǒng)簡(jiǎn)單RNN梯度消失等問題，使得RNN框架可以在語音識(shí)別領(lǐng)域?qū)嵱没@得了超越DNN的效果，目前已經(jīng)在業(yè)界一些比較先進(jìn)的語音系統(tǒng)中使用。除此之外，研究人員還在RNN的基礎(chǔ)上做了進(jìn)一步改進(jìn)工作，圖2是當(dāng)前語音識(shí)別中的主流RNN聲學(xué)模型框架，主要還包含兩部分：深層雙向LSTM RNN和CTC(Connectionist Temporal Classification)輸出層。其中雙向RNN對(duì)當(dāng)前語音幀進(jìn)行判斷時(shí)，不僅可以利用歷史的語音信息，還可以利用未來的語音信息，可以進(jìn)行更加準(zhǔn)確的決策;CTC使得訓(xùn)練過程無需幀級(jí)別的標(biāo)注，實(shí)現(xiàn)有效的“端對(duì)端”訓(xùn)練。

　　

　　圖2：基于LSTM RNN的主流聲學(xué)模型框架

　　目前，國際國內(nèi)已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)掌握了RNN模型，并在上述某個(gè)或多個(gè)技術(shù)點(diǎn)進(jìn)行研究。然而，上述各個(gè)技術(shù)點(diǎn)單獨(dú)研究時(shí)一般可以獲得較好的結(jié)果，但是如果想將這些技術(shù)點(diǎn)融合在一起的時(shí)候，則會(huì)碰到一些問題。例如，多個(gè)技術(shù)結(jié)合在一起的提升幅度會(huì)比各個(gè)技術(shù)點(diǎn)幅度的疊加要小。又例如，傳統(tǒng)的雙向RNN方案，理論上需要看到語音的結(jié)束(即所有的未來信息)，才能成功的應(yīng)用未來信息來獲得提升，因此只適合處理離線任務(wù)，而對(duì)于要求即時(shí)響應(yīng)的在線任務(wù)(例如語音輸入法)則往往會(huì)帶來3-5s的硬延遲，這對(duì)于在線任務(wù)是不可接受的。再者，RNN對(duì)上下文相關(guān)性的擬合較強(qiáng)，相對(duì)于DNN更容易陷入過擬合的問題，容易因?yàn)橛?xùn)練數(shù)據(jù)的局部不魯棒現(xiàn)象而帶來額外的異常識(shí)別錯(cuò)誤。最后，由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu)，給海量數(shù)據(jù)下的RNN模型訓(xùn)練帶來了更大的挑戰(zhàn)。

　　鑒于上述問題，科大訊飛發(fā)明了一種名為前饋型序列記憶網(wǎng)絡(luò)FSMN(Feed-forward Sequential Memory Network)的新框架。在這個(gè)框架中，可以把上述幾點(diǎn)很好的融合，同時(shí)各個(gè)技術(shù)點(diǎn)對(duì)效果的提升可以獲得疊加。值得一提的是，我們?cè)谶@個(gè)系統(tǒng)中創(chuàng)造性提出的FSMN結(jié)構(gòu)，采用非循環(huán)的前饋結(jié)構(gòu)，在只需要180ms延遲下，就達(dá)到了和雙向LSTM RNN相當(dāng)?shù)男Ч?。下面讓我們來具體看下它的構(gòu)成。

　　

　　圖3：FSMN結(jié)構(gòu)示意圖

　　

　　圖4：第個(gè)隱層記憶塊的時(shí)序展開示意圖(左右各看1幀)

　　圖3即為FSMN的結(jié)構(gòu)示意圖，相比傳統(tǒng)的DNN，我們?cè)陔[層旁增加了一個(gè)稱為“記憶塊”的模塊，用于存儲(chǔ)對(duì)判斷當(dāng)前語音幀有用的歷史信息和未來信息。圖4畫出了雙向FSMN中記憶塊左右各記憶1幀語音信息(在實(shí)際任務(wù)中，可根據(jù)任務(wù)需要，人工調(diào)整所需記憶的歷史和未來信息長度)的時(shí)序展開結(jié)構(gòu)。從圖中我們可以看出，不同于傳統(tǒng)的基于循環(huán)反饋的RNN，F(xiàn)SMN記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的。這種前饋結(jié)構(gòu)有兩大好處：首先，雙向FSMN對(duì)未來信息進(jìn)行記憶時(shí)，沒有傳統(tǒng)雙向RNN必須等待語音輸入結(jié)束才能對(duì)當(dāng)前語音幀進(jìn)行判斷的限制，它只需要等待有限長度的未來語音幀即可，正如前文所說的，我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果;其次，如前所述，傳統(tǒng)的簡(jiǎn)單RNN因?yàn)橛?xùn)練過程中的梯度是按時(shí)間逐次往前傳播的，因此會(huì)出現(xiàn)指數(shù)衰減的梯度消失現(xiàn)象，這導(dǎo)致理論上具有無限長記憶的RNN實(shí)際上能記住的信息很有限，然而FSMN這種基于前饋時(shí)序展開結(jié)構(gòu)的記憶網(wǎng)絡(luò)，在訓(xùn)練過程中梯度沿著圖4中記憶塊與隱層的連接權(quán)重往回傳給各個(gè)時(shí)刻即可，這些連接權(quán)重決定了不同時(shí)刻輸入對(duì)判斷當(dāng)前語音幀的影響，而且這種梯度傳播在任何時(shí)刻的衰減都是常數(shù)的，也是可訓(xùn)練的，因此FSMN用一種更為簡(jiǎn)單的方式解決了RNN中的梯度消失問題，使得其具有類似LSTM的長時(shí)記憶能力。另外，在模型訓(xùn)練效率和穩(wěn)定性方面，由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò)，所以不存在RNN訓(xùn)練中因mini-batch中句子長短不一需要補(bǔ)0而導(dǎo)致浪費(fèi)運(yùn)算的情況，前饋結(jié)構(gòu)也使得它的并行度更高，可最大化利用GPU計(jì)算能力。從最終訓(xùn)練收斂的雙向FSMN模型記憶塊中各時(shí)刻的加權(quán)系數(shù)分布我們觀察到，權(quán)重值基本上在當(dāng)前時(shí)刻最大，往左右兩邊逐漸衰減，這也符合預(yù)期。進(jìn)一步，F(xiàn)SMN可和CTC準(zhǔn)則結(jié)合，實(shí)現(xiàn)語音識(shí)別中的“端到端”建模。

　　最后，和其他多個(gè)技術(shù)點(diǎn)結(jié)合后，訊飛基于FSMN的語音識(shí)別框架可獲得相比業(yè)界最好的語音識(shí)別系統(tǒng)40%的性能提升，同時(shí)結(jié)合我們的多GPU并行加速技術(shù)，訓(xùn)練效率可達(dá)到1萬小時(shí)訓(xùn)練數(shù)據(jù)1天可訓(xùn)練收斂。與此同時(shí)，后續(xù)基于FSMN框架，我們還將展開更多相關(guān)的研究工作，例如：DNN和記憶塊更深層次的組合方式，增加記憶塊部分復(fù)雜度強(qiáng)化記憶功能，F(xiàn)SMN結(jié)構(gòu)和CNN等其他結(jié)構(gòu)的更深度融合等。在這些核心技術(shù)持續(xù)進(jìn)步的基礎(chǔ)上，科大訊飛的語音識(shí)別系統(tǒng)將不斷挑戰(zhàn)新的高峰!

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 科大訊飛 語音識(shí)別

評(píng)論

相關(guān)推薦

3 語音云開放平臺(tái)注冊(cè)賬號(hào)與創(chuàng)建應(yīng)用

視頻科大訊飛 Android 語音 | 2015-07-07

賽昉科技重磅發(fā)布全球首款基于RISC-V人工智能視覺處理平臺(tái) ——驚鴻7100

驚鴻7100 RISC-V指令集深度學(xué)習(xí) 圖像處理語音識(shí)別機(jī)器視覺 | 2020-10-10

本科畢業(yè)設(shè)計(jì)：一種基于發(fā)育思想的語音識(shí)別系統(tǒng)實(shí)現(xiàn)

資源下載語音識(shí)別人工智能自主式機(jī)器發(fā)育思想自組織映射網(wǎng)絡(luò) 簡(jiǎn)單反饋神經(jīng)網(wǎng)絡(luò) | 2007-04-19

語音識(shí)別中的離線和在線識(shí)別有何區(qū)別或特點(diǎn)？

萬世浮華 | 2020-10-15

JavaScript語音識(shí)別庫-Julius

視頻 JavaScript 語音識(shí)別 Julius | 2015-07-07

1 科大訊飛語音服務(wù)概述

視頻科大訊飛 Android 語音 | 2015-07-07

目前有哪些比較好用的離線語音識(shí)別模塊呢？

從小就是電子迷 | 2021-08-18

孤立詞語音識(shí)別系統(tǒng)的DSP實(shí)現(xiàn)

設(shè)計(jì)方案孤立詞 DSP 語音識(shí)別 | 2015-03-28

科大訊飛劉慶峰：華為 GPU 可對(duì)標(biāo)英偉達(dá) A100，通用大模型明年上半年對(duì)標(biāo) GPT-4

智能計(jì)算 AI 智能計(jì)算科大訊飛 | 2023-08-28

基于聯(lián)合得分的連續(xù)語音識(shí)別確認(rèn)方法

資源下載似然比檢驗(yàn) 備擇模型語音確認(rèn) 語音識(shí)別 | 2007-04-19

Nuance語音識(shí)別技術(shù)

設(shè)計(jì)方案語音識(shí)別 Nuance 消費(fèi)電子 | 2015-02-03

語音模組重啟及聲音輸出異常淺析

消費(fèi)電子 202106 智能家居語音識(shí)別可靠性 | 2021-07-12

電視機(jī)智能聲控選合系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

資源下載語音識(shí)別彩電遙控智能聲控選臺(tái) | 2007-02-16

微軟197億美元完成對(duì)Nuance的收購目標(biāo)不止在于語音識(shí)別市場(chǎng)

微軟 Nuance 收購語音識(shí)別 | 2022-03-10

AT32上實(shí)現(xiàn)關(guān)鍵詞語音識(shí)別（KWS）

Hoopzhao | 2022-09-18

2 語音云開放平臺(tái)介紹

視頻科大訊飛 Android 語音 | 2015-07-07

大聯(lián)大品佳集團(tuán)推出基于MediaTek產(chǎn)品的亞馬遜智能物聯(lián)網(wǎng)語音識(shí)別方案

物聯(lián)網(wǎng)與傳感器大聯(lián)大品佳 MediaTek 亞馬遜語音識(shí)別 | 2022-09-08

美光高性能內(nèi)存與存儲(chǔ)，推動(dòng) AI 豐富殘障人士生活體驗(yàn)

網(wǎng)絡(luò)與存儲(chǔ) 語音識(shí)別生成式AI 機(jī)器學(xué)習(xí) 內(nèi)存 | 2023-12-07

基于STM32智能家居系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

設(shè)計(jì)方案 STM32 語音識(shí)別服務(wù)器智能家居 | 2015-03-21

利用MEMS麥克風(fēng)陣列定位并識(shí)別音頻或語音信源的技術(shù)方案

設(shè)計(jì)方案 ARM處理器 MEMS STM32F4 語音識(shí)別 | 2015-03-23

4 語音SDK介紹

視頻科大訊飛 Android 語音 SDK | 2015-07-07

語音識(shí)別及其定點(diǎn)DSP實(shí)現(xiàn)

設(shè)計(jì)方案語音識(shí)別 DSP C語言 | 2015-03-28

語音識(shí)別在遙控系統(tǒng)中的應(yīng)用設(shè)計(jì)

資源下載語音識(shí)別 DTW FED FRED 學(xué)習(xí)型遙控器 | 2007-04-19

科大訊飛智能辦公本Air榮獲“2022年度智能硬件創(chuàng)新獎(jiǎng)”

智能計(jì)算 AI 科大訊飛 | 2023-01-06

基于Infineon SoC藍(lán)牙CYW20835之智能遙控器方案

物聯(lián)網(wǎng)與傳感器英飛凌藍(lán)牙 BT 遙控器紅外信號(hào) 傳感器語音識(shí)別 2.4g 語音遙控 cyw20835 | 2023-08-02

便攜設(shè)備中集成“一直聽”的語音觸發(fā)方案

nakey | 2016-03-09

新一代語音識(shí)別：可徹底改變車內(nèi)體驗(yàn)的技術(shù)

汽車電子語音識(shí)別生物識(shí)別人工智能 | 2024-07-18

談?wù)劗?dāng)前：離線語音識(shí)別與在線語音識(shí)別的優(yōu)缺點(diǎn)

白嶺 | 2020-02-18

科大訊飛：Q2營收扭虧為盈，加碼新基建賦能

消費(fèi)電子科大訊飛新基建人工智能 | 2020-08-24

基于DTW模型的語音識(shí)別

資源下載 DTW模型語音識(shí)別 MATLAB | 2007-04-19

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();