<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 業(yè)界動態(tài) > Nikko Strom揭秘語音識別技術(shù)：Alexa是怎樣煉成的？

Nikko Strom揭秘語音識別技術(shù)：Alexa是怎樣煉成的？

作者：時間：2017-03-30 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　聲學(xué)模型就是一個分類器(classifier)，輸入的是向量，輸出的是語音類別的概率。這是一個典型的神經(jīng)網(wǎng)絡(luò)。底部是輸入的信息，隱藏層將向量轉(zhuǎn)化到最后一層里的音素概率。

本文引用地址：http://www.ex-cimer.com/article/201703/345967.htm

　　這里是一個美式英語的 Alexa 語音識別系統(tǒng)，所以就會輸出美式英語中的各個音素。在 Echo 初始發(fā)布的時候，我們錄了幾千個小時的美式英語語音來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，這個成本是很高的。當然，世界上還有很多其它的語言，比如我們在2016年9月發(fā)行了德語版的Echo，如果再重頭來一遍用幾千個小時的德語語音來訓(xùn)練，成本是很高的。所以，這個神經(jīng)網(wǎng)絡(luò)模型一個有趣的地方就是可以“遷移學(xué)習(xí)”，你可以保持原有網(wǎng)絡(luò)中其它層不變，只把最后的一層換成德語。

　　

Nikko Strom揭秘語音識別技術(shù)：Alexa是怎樣煉成的？

　　兩種不同的語言，音素有很多是不一樣的，但仍然有很多相同的部分。所以，你可以只使用少量的德語的訓(xùn)練數(shù)據(jù)，在稍作改變的模型上就可以最終得到不錯的德語結(jié)果。

　　“錨定嵌入”

　　在一個充滿很多人的空間里，Alexa 需要弄清楚到底誰在說話。開始的部分比較簡單，用戶說一句喚醒詞“Alexa”，Echo上的對應(yīng)方向的麥克風(fēng)就會開啟，但接下來的部分就比較困難了。比如，在一個雞尾酒派對中，一個人說“Alexa，來一點爵士樂”，但如果他/她的旁邊緊挨著同伴一起交談，在很短的時間里都說話，那么要弄清楚到底是誰在發(fā)出指令就比較困難了。

　　

Nikko Strom揭秘語音識別技術(shù)：Alexa是怎樣煉成的？

　　這個問題的解決方案來自于2016年的一份論文《錨定語音檢測》(Anchored Speech Detection)。一開始，我們得到喚醒詞“Alexa”，我們使用一個RNN從中提取一個“錨定嵌入”(Anchor embedding)，這代表了喚醒詞里包含語音特征。接下來，我們用了另一個不同的RNN，從后續(xù)的請求語句中提取語音特征，基于此得出一個端點決策。這就是我們解決雞尾酒派對難題的方法。

　　“雙連音片段”

　　Alexa里的語音合成技術(shù)，也用在了Polly里。語音合成的步驟一般包括：

　　第一步，將文本規(guī)范化。如果你還記得的話，這一步驟恰是對“語音識別”里的最后一個步驟的逆向操作。第二步，把字素轉(zhuǎn)換成音素，由此得到音素串。第三步是關(guān)鍵的一步，也是最難的一步，就是將音素生成波形，也就是真正的聲音。最后，就可以把音頻播放出來了。

　　

Nikko Strom揭秘語音識別技術(shù)：Alexa是怎樣煉成的？

　　Alexa擁有連續(xù)的語音合成。我們錄下了數(shù)小時人的自然發(fā)音的音頻，然后將其切割成非常小的片段，由此組成一個數(shù)據(jù)庫。這些被切割的片段被稱為“雙連音片段”(Di-phone segment)，雙連音由一個音素的后半段和另一個音素的前半段組成，當最終把語音整合起來時，聲音聽起來的效果就比較好。

　　

Nikko Strom揭秘語音識別技術(shù)：Alexa是怎樣煉成的？

　　創(chuàng)建這個數(shù)據(jù)庫時，要高度細致，保證整個數(shù)據(jù)庫里片段的一致性。另外一個重要環(huán)節(jié)是算法方面的，如何選擇最佳片段序列結(jié)合在一起形成最終的波形。首先要弄清楚目標函數(shù)是什么，來確保得到最合適的“雙連音片段”，以及如何從龐大的數(shù)據(jù)庫里搜索到這些片段。比如，我們會把這些片段標簽上屬性，我今天會談到三個屬性，分別是音高(pitch)、時長(duration)和密度(intensity)，我們也要用RNN為這些特征找到目標值。之后，我們在數(shù)據(jù)庫中，搜索到最佳片段組合序列，然后播放出來。

上一頁 1 2 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Alexa 語音識別

評論

相關(guān)推薦

基于Infineon SoC藍牙CYW20835之智能遙控器方案

物聯(lián)網(wǎng)與傳感器英飛凌藍牙 BT 遙控器紅外信號傳感器語音識別 2.4g 語音遙控 cyw20835 | 2023-08-02

亞馬遜今年最重磅發(fā)布會：生成式AI加持Alexa助手、新款音響、平板、路由等硬件亮相

亞馬遜 AI Alexa 翻譯 | 2023-09-21

本科畢業(yè)設(shè)計：一種基于發(fā)育思想的語音識別系統(tǒng)實現(xiàn)

資源下載語音識別人工智能自主式機器發(fā)育思想自組織映射網(wǎng)絡(luò) 簡單反饋神經(jīng)網(wǎng)絡(luò) | 2007-04-19

談?wù)劗斍埃弘x線語音識別與在線語音識別的優(yōu)缺點

白嶺 | 2020-02-18

利用MEMS麥克風(fēng)陣列定位并識別音頻或語音信源的技術(shù)方案

設(shè)計方案 ARM處理器 MEMS STM32F4 語音識別 | 2015-03-23

語音識別及其定點DSP實現(xiàn)

設(shè)計方案語音識別 DSP C語言 | 2015-03-28

孤立詞語音識別系統(tǒng)的DSP實現(xiàn)

設(shè)計方案孤立詞 DSP 語音識別 | 2015-03-28

Alexa調(diào)整網(wǎng)站排名統(tǒng)計方式關(guān)注網(wǎng)民上網(wǎng)習(xí)慣

felixwoo | 2008-04-17

基于DTW模型的語音識別

資源下載 DTW模型語音識別 MATLAB | 2007-04-19

微軟197億美元完成對Nuance的收購目標不止在于語音識別市場

微軟 Nuance 收購語音識別 | 2022-03-10

歐盟擬對Siri和Alexa等語音助手發(fā)起反壟斷調(diào)查

消費電子 Siri Alexa 語音助手 | 2020-07-17

語音識別在遙控系統(tǒng)中的應(yīng)用設(shè)計

資源下載語音識別 DTW FED FRED 學(xué)習(xí)型遙控器 | 2007-04-19

JavaScript語音識別庫-Julius

視頻 JavaScript 語音識別 Julius | 2015-07-07

賽昉科技重磅發(fā)布全球首款基于RISC-V人工智能視覺處理平臺 ——驚鴻7100

驚鴻7100 RISC-V指令集深度學(xué)習(xí) 圖像處理語音識別機器視覺 | 2020-10-10

電視機智能聲控選合系統(tǒng)設(shè)計與實現(xiàn)

資源下載語音識別彩電遙控智能聲控選臺 | 2007-02-16

語音模組重啟及聲音輸出異常淺析

消費電子 202106 智能家居語音識別可靠性 | 2021-07-12

美光高性能內(nèi)存與存儲，推動 AI 豐富殘障人士生活體驗

網(wǎng)絡(luò)與存儲語音識別生成式AI 機器學(xué)習(xí) 內(nèi)存 | 2023-12-07

基于聯(lián)合得分的連續(xù)語音識別確認方法

資源下載似然比檢驗備擇模型語音確認語音識別 | 2007-04-19

亞馬遜Echo接入教程

Gizwits | 2016-12-15

人工智能探境科技之得“芯”應(yīng)手

智能計算人工智能（AI）神經(jīng)網(wǎng)絡(luò)處理器（NPU）深度學(xué)習(xí) 語音識別 202008 中國芯 | 2020-07-24

便攜設(shè)備中集成“一直聽”的語音觸發(fā)方案

nakey | 2016-03-09

Nuance語音識別技術(shù)

設(shè)計方案語音識別 Nuance 消費電子 | 2015-02-03

4 調(diào)用 Google 語音識別

視頻 Android Wear 圖靈機器人 Google 語音識別 | 2015-07-07

新一代語音識別：可徹底改變車內(nèi)體驗的技術(shù)

汽車電子語音識別生物識別人工智能 | 2024-07-18

基于STM32智能家居系統(tǒng)的設(shè)計與實現(xiàn)

設(shè)計方案 STM32 語音識別服務(wù)器智能家居 | 2015-03-21

UM2354_Alexa語音服務(wù)軟件擴展包指南

EEPW | 2019-03-19

大聯(lián)大品佳集團推出基于MediaTek產(chǎn)品的亞馬遜智能物聯(lián)網(wǎng)語音識別方案

物聯(lián)網(wǎng)與傳感器大聯(lián)大品佳 MediaTek 亞馬遜語音識別 | 2022-09-08

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();