<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 設(shè)計(jì)應(yīng)用 > ZLG深度解析語音識別技術(shù)

ZLG深度解析語音識別技術(shù)

作者：ZLG致遠(yuǎn)電子時(shí)間：2019-03-02 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　語音識別已成為人與機(jī)器通過自然語言交互重要方式之一，本文將從語音識別的原理以及語音識別算法的角度出發(fā)為大家介紹語音識別的方案及詳細(xì)設(shè)計(jì)過程。

本文引用地址：http://www.ex-cimer.com/article/201903/398163.htm

　　語言作為人類的一種基本交流方式，在數(shù)千年歷史中得到持續(xù)傳承。近年來，語音識別技術(shù)的不斷成熟，已廣泛應(yīng)用于我們的生活當(dāng)中。語音識別技術(shù)是如何讓機(jī)器“聽懂”人類語言?本文將為大家從語音前端處理、基于統(tǒng)計(jì)學(xué)語音識別和基于深度學(xué)習(xí)語音識別等方面闡述語音識別的原理。

　　隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，人們對機(jī)器的依賴已經(jīng)達(dá)到一個(gè)極高的程度。語音識別技術(shù)使得人與機(jī)器通過自然語言交互成為可能。最常見的情形是通過語音控制房間燈光、空調(diào)溫度和電視的相關(guān)操作等。并且，移動(dòng)互聯(lián)網(wǎng)、智能家居、汽車、醫(yī)療和教育等領(lǐng)域的應(yīng)用帶動(dòng)智能語音產(chǎn)業(yè)規(guī)模持續(xù)快速增長， 2018年全球智能語音市場規(guī)模將達(dá)到141.1億美元。

　　

　　目前，在全球智能語音市場占比情況中，各巨頭市場占有率由大到小依次為：Nuance、谷歌、蘋果、微軟和科大訊飛等。

　　

　　語音識別的本質(zhì)就是將語音序列轉(zhuǎn)換為文本序列，其常用的系統(tǒng)框架如下：

　　

　　接下來對語音識別相關(guān)技術(shù)進(jìn)行介紹，為了便于整體理解，首先，介紹語音前端信號處理的相關(guān)技術(shù)，然后，解釋語音識別基本原理，并展開到聲學(xué)模型和語言模型的敘述，最后，展示我司當(dāng)前研發(fā)的離線語音識別demo。

　　1.前端信號處理

　　前端的信號處理是對原始語音信號進(jìn)行的相關(guān)處理，使得處理后的信號更能代表語音的本質(zhì)特征，相關(guān)技術(shù)點(diǎn)如下表所述：

　　1)語音活動(dòng)檢測

　　語音活動(dòng)檢測(Voice Activity Detection, VAD)用于檢測出語音信號的起始位置，分離出語音段和非語音(靜音或噪聲)段。VAD算法大致分為三類：基于閾值的VAD、基于分類器的VAD和基于模型的VAD。

　　基于閾值的VAD是通過提取時(shí)域(短時(shí)能量、短時(shí)過零率等)或頻域(MFCC、譜熵等)特征，通過合理的設(shè)置門限，達(dá)到區(qū)分語音和非語音的目的。

　　基于分類的VAD是將語音活動(dòng)檢測作為(語音和非語音)二分類，可以通過機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器，達(dá)到語音活動(dòng)檢測的目的。

　　基于模型的VAD是構(gòu)建一套完整的語音識別模型用于區(qū)分語音段和非語音段，考慮到實(shí)時(shí)性的要求，并未得到實(shí)際的應(yīng)用。

　　2)降噪

　　在生活環(huán)境中通常會(huì)存在例如空調(diào)、風(fēng)扇等各種噪聲，降噪算法目的在于降低環(huán)境中存在的噪聲，提高信噪比，進(jìn)一步提升識別效果。

　　常用降噪算法包括自適應(yīng)LMS和維納濾波等。

　　3)回聲消除

　　回聲存在于雙工模式時(shí)，麥克風(fēng)收集到揚(yáng)聲器的信號，比如在設(shè)備播放音樂時(shí)，需要用語音控制該設(shè)備的場景。

　　回聲消除通常使用自適應(yīng)濾波器實(shí)現(xiàn)的，即設(shè)計(jì)一個(gè)參數(shù)可調(diào)的濾波器，通過自適應(yīng)算法(LMS、NLMS等)調(diào)整濾波器參數(shù)，模擬回聲產(chǎn)生的信道環(huán)境，進(jìn)而估計(jì)回聲信號進(jìn)行消除。

　　4)混響消除

　　語音信號在室內(nèi)經(jīng)過多次反射之后，被麥克風(fēng)采集，得到的混響信號容易產(chǎn)生掩蔽效應(yīng)，會(huì)導(dǎo)致識別率急劇惡化，需要在前端處理。

　　混響消除方法主要包括：基于逆濾波方法、基于波束形成方法和基于深度學(xué)習(xí)方法等。

　　5)聲源定位

　　麥克風(fēng)陣列已經(jīng)廣泛應(yīng)用于語音識別領(lǐng)域，聲源定位是陣列信號處理的主要任務(wù)之一，使用麥克風(fēng)陣列確定說話人位置，為識別階段的波束形成處理做準(zhǔn)備。

　　聲源定位常用算法包括：基于高分辨率譜估計(jì)算法(如MUSIC算法)，基于聲達(dá)時(shí)間差(TDOA)算法，基于波束形成的最小方差無失真響應(yīng)(MVDR)算法等。

　　6)波束形成

　　波束形成是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各個(gè)麥克風(fēng)輸出信號，經(jīng)過處理(如加權(quán)、時(shí)延、求和等)形成空間指向性的方法，可用于聲源定位和混響消除等。

　　波束形成主要分為：固定波束形成、自適應(yīng)波束形成和后置濾波波束形成等。

　　2.語音識別的基本原理

　　已知一段語音信號，處理成聲學(xué)特征向量之后表示為，其中表示一幀數(shù)據(jù)的特征向量，將可能的文本序列表示為，其中表示一個(gè)詞。語音識別的基本出發(fā)點(diǎn)就是求，即求出使最大化的w文本序列。將通過貝葉斯公式表示為：

　　

　　其中，稱之為聲學(xué)模型，稱之為語言模型。大多數(shù)的研究將聲學(xué)模型和語言模型分開處理，并且，不同廠家的語音識別系統(tǒng)主要體現(xiàn)在聲學(xué)模型的差異性上面。此外，基于大數(shù)據(jù)和深度學(xué)習(xí)的端到端(End-to-End)方法也在不斷發(fā)展，它直接計(jì)算，即將聲學(xué)模型和語言模型作為整體處理。本文主要對前者進(jìn)行介紹。

　　3.聲學(xué)模型

　　聲學(xué)模型是將語音信號的觀測特征與句子的語音建模單元聯(lián)系起來，即計(jì)算。我們通常使用隱馬爾科夫模型(Hidden Markov Model，HMM)解決語音與文本的不定長關(guān)系，比如下圖的隱馬爾科夫模型中，

　　

　　將聲學(xué)模型表示為

　　

　　其中，初始狀態(tài)概率和狀態(tài)轉(zhuǎn)移概率(、)可用通過常規(guī)統(tǒng)計(jì)的方法計(jì)算得出，發(fā)射概率(

、、)可以通過混合高斯模型GMM或深度神經(jīng)網(wǎng)絡(luò)DNN求解。

　　傳統(tǒng)的語音識別系統(tǒng)普遍采用基于GMM-HMM的聲學(xué)模型，示意圖如下：

　　

　　其中，表示狀態(tài)轉(zhuǎn)移概率，語音特征表示，通過混合高斯模型GMM建立特征與狀態(tài)之間的聯(lián)系，從而得到發(fā)射概率，并且，不同的狀態(tài)對應(yīng)的混合高斯模型參數(shù)不同。

　　基于GMM-HMM的語音識別只能學(xué)習(xí)到語音的淺層特征，不能獲取到數(shù)據(jù)特征間的高階相關(guān)性，DNN-HMM利用DNN較強(qiáng)的學(xué)習(xí)能力，能夠提升識別性能，其聲學(xué)模型示意圖如下：

　　

　　GMM-HMM和DNN-HMM的區(qū)別在于用DNN替換GMM來求解發(fā)射概率

，GMM- HMM模型優(yōu)勢在于計(jì)算量較小且效果不俗。DNN-HMM模型提升了識別率，但對于硬件的計(jì)算能力要求較高。因此，模型的選擇可以結(jié)合實(shí)際的應(yīng)用調(diào)整。

　　4.語言模型

　　語言模型與文本處理相關(guān)，比如我們使用的智能輸入法，當(dāng)我們輸入“nihao”，輸入法候選詞會(huì)出現(xiàn)“你好”而不是“尼毫”，候選詞的排列參照語言模型得分的高低順序。

　　語音識別中的語言模型也用于處理文字序列，它是結(jié)合聲學(xué)模型的輸出，給出概率最大的文字序列作為語音識別結(jié)果。由于語言模型是表示某一文字序列發(fā)生的概率，一般采用鏈?zhǔn)椒▌t表示，如w是由組成，則可由條件概率相關(guān)公式表示為：

　

　　由于條件太長，使得概率的估計(jì)變得困難，常見的做法是認(rèn)為每個(gè)詞的概率分布只依賴于前幾個(gè)出現(xiàn)的詞語，這樣的語言模型成為n-gram模型。在n-gram模型中，每個(gè)詞的概率分布只依賴于前面n-1個(gè)詞。例如在trigram(n取值為3)模型，可將上式化簡：

　　5.語音識別效果展示

　　基于PC的語音識別展示demo如下視頻所示：

　　此處插入視頻zal_asr_demo_video.mp4

　　視頻包括使用“小致同學(xué)”喚醒設(shè)備，設(shè)備喚醒之后有12秒時(shí)間進(jìn)行語音識別控制，空閑時(shí)間超過了12秒將再次休眠。

　　我們的語音識別算法已經(jīng)部分移植到了基于AWorks的cortex-m7系列M1052-M16F12 8AWI -T平臺(tái)。語音識別的聲學(xué)模型和語言模型是我司訓(xùn)練的用于測試智能家居控制的相關(guān)模型demo，在支持65個(gè)常用命令詞的離線識別測試中(數(shù)量越大識別所需時(shí)間越長)，使用讀取本地音頻文件的方式進(jìn)行語音識別“打開空調(diào)”所需時(shí)間0.46s左右。下面是在M1052-M16F128AWI- T的實(shí)測效果：

　　最后附上M1052-M16F128AWI-T產(chǎn)品圖片：

　　6.關(guān)于算法庫獲取

　　目前語音識別系統(tǒng)處于研發(fā)階段，廣大客戶可將自身需求反饋給廣州立功科技股份有限公司與立功科技·致遠(yuǎn)電子相關(guān)市場人員，我們會(huì)以最快速度研發(fā)客戶需要的產(chǎn)品。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： ZLG 語音識別

評論

相關(guān)推薦

孤立詞語音識別系統(tǒng)的DSP實(shí)現(xiàn)

設(shè)計(jì)方案孤立詞 DSP 語音識別 | 2015-03-28

BLE藍(lán)牙模塊功能應(yīng)用① — 主從一體

手機(jī)與無線通信 ZLG BLE 藍(lán)牙模塊 | 2023-09-12

屏閃鬧的是哪一出？

電源與新能源 ZLG 屏閃 | 2023-09-14

電源模塊輸出為何振蕩？

電源與新能源 ZLG 電源模塊 | 2023-09-14

確保儲(chǔ)能系統(tǒng)輸出平穩(wěn)與可靠的DC/DC模塊

電源與新能源 ZLG 儲(chǔ)能系統(tǒng) | 2023-11-14

ZLG-GUI 圖形用戶界面

資源下載嵌入式 ZLG/GUI 界面 | 2007-02-16

Nuance語音識別技術(shù)

設(shè)計(jì)方案語音識別 Nuance 消費(fèi)電子 | 2015-02-03

儀器校準(zhǔn)這件事

測試測量 ZLG 儀器校準(zhǔn) | 2023-10-07

新一代語音識別：可徹底改變車內(nèi)體驗(yàn)的技術(shù)

汽車電子語音識別生物識別人工智能 | 2024-07-18

4 調(diào)用 Google 語音識別

視頻 Android Wear 圖靈機(jī)器人 Google 語音識別 | 2015-07-07

美光高性能內(nèi)存與存儲(chǔ)，推動(dòng) AI 豐富殘障人士生活體驗(yàn)

網(wǎng)絡(luò)與存儲(chǔ) 語音識別生成式AI 機(jī)器學(xué)習(xí) 內(nèi)存 | 2023-12-07

《嵌入式系統(tǒng)軟件開發(fā)實(shí)例》內(nèi)容簡介

資源下載周立功單片機(jī) ZLG/FS TCP/IP USB | 2007-03-30

ZLG,ARM 請問一下ZLG-ARM,

jackwang | 2006-09-17

zlg,boot 下載zlg-boot的問題

jackwang | 2006-09-17

利用MEMS麥克風(fēng)陣列定位并識別音頻或語音信源的技術(shù)方案

設(shè)計(jì)方案 ARM處理器 MEMS STM32F4 語音識別 | 2015-03-23

電視機(jī)智能聲控選合系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

資源下載語音識別彩電遙控智能聲控選臺(tái) | 2007-02-16

三線制PT100測溫容易忽略的設(shè)計(jì)細(xì)節(jié)

測試測量 ZLG PT100 | 2023-11-14

振動(dòng)場合的電源模塊該如何選型？

電源與新能源 ZLG 電源模塊 | 2023-11-06

ZLG-FS文件系統(tǒng)簡要說明

資源下載周立功 ZLG/FS 文件系統(tǒng) 中間件 | 2007-02-16

iCAN教學(xué)實(shí)驗(yàn)開發(fā)平臺(tái)簡介

視頻 ZLG iCAN | 2009-04-17

JavaScript語音識別庫-Julius

視頻 JavaScript 語音識別 Julius | 2015-07-07

ZLG7290應(yīng)用電路及功能方框圖

設(shè)計(jì)方案電子電路圖，ZLG | 2012-07-31

ZLG-CF驅(qū)動(dòng)中間件簡要說明

資源下載 ZLG-CF 驅(qū)動(dòng) 中間件 | 2007-02-16

ZLG,ARM 請教ZLG-ARM

jackwang | 2006-09-17

基于STM32智能家居系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

設(shè)計(jì)方案 STM32 語音識別服務(wù)器智能家居 | 2015-03-21

ZLG,ARM,uart 請ZLG-ARM給多uart通訊提個(gè)解決的方案

jackwang | 2006-09-17

LM3S101,ZLG,MCU,2200 LM3S101商業(yè)應(yīng)用有獎(jiǎng)活動(dòng)在“ZLG-MCU”等您拿，價(jià)值2200元！

jackwang | 2006-09-17

精密測溫模塊ZAM6222在化學(xué)發(fā)光分析儀中的應(yīng)用

測試測量 ZLG | 2023-09-04

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();