<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > El axer? 所有雞蛋，呃？Alexa！從噪音中拾取清晰語

El axer? 所有雞蛋，呃？Alexa！從噪音中拾取清晰語

作者：Ofer Shahen-Tov（CEVA聲音技術(shù)部門聲音增強(qiáng)算法工程師) 時(shí)間：2021-09-15 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

基于語音的控制系統(tǒng)正在經(jīng)歷穩(wěn)健的增長，2020 年達(dá)到 107 億美元，預(yù)計(jì)到 2026 年將達(dá)到超過 270 億美元。其優(yōu)點(diǎn)不言而喻：無手操作，界面大大簡化。您可以直接說出所需的內(nèi)容，而無需使用導(dǎo)航菜單。但是，正如我們所有人所經(jīng)歷的那樣，聲音可能有其自身的弊端。當(dāng)您靠近麥克風(fēng)正對著它講話時(shí)，它在安靜的房間里工作正常。但在您的手機(jī)上、通過無線耳塞以及在繁忙的超市中，這些情形的語音識別如何呢？識別效果并不總是那么好?；?a class="contentlabel" href="http://www.ex-cimer.com/news/listbylabel/label/人工智能">人工智能的命令識別至關(guān)重要，但更重要的是，這種識別首先要有可以正常工作的清晰語音信號。如果沒有清晰的音頻輸入，您的識別程序通常會錯誤識別語音命令。用戶會感到沮喪，并很快就停止使用該功能。

本文引用地址：http://www.ex-cimer.com/article/202109/428241.htm

（資料來源：CEVA）

是什么讓語音識別變得困難重重

在一個(gè)相似的問題（視覺識別）中，常規(guī)圖像中沒有太多的模糊之處，至少在光照合理的情況下是如此。但是，聲音檢測必須應(yīng)付更多的干擾。穩(wěn)定的背景噪音包括風(fēng)扇、空調(diào)、道路噪音。還有其他不太可預(yù)測的背景噪音–音樂、談話、狗吠、汽車?yán)取⒕?。從這些雜亂紛呈的背景噪音中拾取語音并不簡單。但通過采用正確的技術(shù)，這是非常有可能做到的。

這種噪聲過濾技術(shù)的優(yōu)勢不僅僅體現(xiàn)在語音控制方面，它還提高了手機(jī)通話或會議通話的清晰度。通話另一端的聽眾將在背景噪音中更清楚地聽到您和其他講話人。

使這一目標(biāo)成為可能的是音頻前端 (AFE)，這是在語音識別或通信之前的一組信號處理階段。此音頻前端可清理原始音頻信號，加強(qiáng)最突出的講話人（相對于其他輸入源），并減少該信號周圍的雜音。

語音活動和到達(dá)方向檢測

許多基于語音識別的設(shè)備都是電池供電的（手機(jī)、手表和遙控器），必須最大限度降低功耗。語音活動檢測 (VAD) 是一個(gè)功耗極低的階段，專門用于檢測講話人。在觸發(fā)此檢測之前，所有其它設(shè)備都可以保持?jǐn)嚯姞顟B(tài)。如何將人類語音與狗吠或其他非人類噪音區(qū)別開來？這需要通過一些巧妙但明確的濾波技術(shù)。

到達(dá)方向 (DOA) 檢測要求設(shè)備（手機(jī)、遙控器等）配有多個(gè)麥克風(fēng)，通常為若干個(gè)麥克風(fēng)。然后，通過比較在每個(gè)麥克風(fēng)處聲音脈沖到達(dá)時(shí)間的微小差異，可以推斷到達(dá)方向（在應(yīng)用人類語音濾波后）。正如我將在下面所闡釋的，DOA 檢測對于使音頻前端能夠放大講話人（聲音）至關(guān)重要。

降噪

降噪有多種方法，有些是空間敏感的，有些是基于單通道濾波?？臻g方法提供了一種通過波束成型技術(shù)放大講話人聲音的方法。這與無線技術(shù)在優(yōu)先選擇特定的蜂窩塔時(shí)所使用的技巧相同，但在此處，這種技巧應(yīng)用于聲波，而不是無線電波。在此處，信號處理使用來自多個(gè)麥克風(fēng)的輸入信號優(yōu)先優(yōu)化來自特定方向的接收信號。這當(dāng)然由 DOA 檢測進(jìn)行導(dǎo)向。

單通道濾波看起來更像頻域中的傳統(tǒng)濾波。最一般的情況下，這可能是一個(gè)帶通濾波器，但也可能是更復(fù)雜的選件。此方法的問題是，它通常會影響觸發(fā)詞檢測和自動語音識別。正是出于此原因，一些云平臺要求在使用語音識別服務(wù)之前禁用此類濾波器。單通道濾波器在語音通信（而不是語音識別）中仍有價(jià)值，可減少線路另一端的聽者噪音。

回聲消除示例 - 在 AEC 激活前后 2 個(gè)信號的聲譜圖。

回聲消除

在任何封閉空間（房間、駕駛室）中，聲音會朝多個(gè)方向傳播，并且會從墻壁、窗戶和家具發(fā)出回聲，比直接信號略遲一點(diǎn)到達(dá)麥克風(fēng)。或者，聽眾可能會聽到從講話人到麥克風(fēng)的難聽回聲。消除這些討厭的回聲（起碼會增強(qiáng)噪音）是回聲消除 (AEC) 技術(shù)的任務(wù)?；芈曄夹g(shù)將參考信號（麥克風(fēng)從直接路徑接收到的第一個(gè)最強(qiáng)信號）與隨后接收到的回波進(jìn)行比較。它們波形相似，但是已衰減，因此容易識別并從信號中除去。

高精度語音識別只能通過高質(zhì)量音頻前端實(shí)現(xiàn)。這需要一些相當(dāng)復(fù)雜的音頻前端處理，比如人聲活動檢測、DOA 檢測、波束成型、回聲消除和濾波（如果適用）。這些技術(shù)全部基于復(fù)雜的信號處理算法。有多種技術(shù)組合可以為您提供，您可根據(jù)在高端技術(shù)和大眾市場之間的不同定位進(jìn)行選擇。

要實(shí)現(xiàn)可靠的基于語音的控制，乃至于在嘈雜環(huán)境中實(shí)現(xiàn)高音質(zhì)的溝通，必須滿足這一基本的要求。頗具矛盾的是，如果您可以將大量技術(shù)應(yīng)用于清晰語音拾取問題，該問題便可迎刃而解。只要采用高端語音活動檢測技術(shù)、多麥克風(fēng)波束成型技術(shù)和回聲消除技術(shù)，您便可以擁有一款面向高端市場的高檔產(chǎn)品。一個(gè)更為有趣的挑戰(zhàn)是能夠以更具吸引力的價(jià)格為您的中端市場提供幾乎同樣出色的拾音質(zhì)量。我將在此處探討同時(shí)面向這兩類市場的技術(shù)。

（資料來源：CEVA）

語音活動檢測 (VAD)

此步驟是語音拾取路徑的起點(diǎn) – 是否有人在聲音背景中講話？第一步只是查看一下信號，將具有清晰活動的幀與背景分離開來。

圖1 針對示例信號的 VAD 功能

僅查看原始檢測信號，會發(fā)現(xiàn)一些檢測將是真實(shí)的，一些檢測將是錯誤的。為 SnR 設(shè)置一個(gè)合適的閾值有助于找到一個(gè)好的平衡點(diǎn)。在一款物有所值的產(chǎn)品中，純粹基于能量的檢測（窗口集成）可能就足夠了。高檔產(chǎn)品可能會增加使用神經(jīng)網(wǎng)絡(luò)的自適應(yīng)檢測。這兩種特性在可穿戴設(shè)備和耳塞中都很常見。這些技術(shù)的常見分析是在接收器工作特性 (RoC) 曲線上繪制真陽性和假陽性的對比。假陽性和真陽性檢測之間的這種權(quán)衡有助于您決定如何調(diào)整產(chǎn)品。

圖2 若干 VAD 解決方案的 RoC 圖表

到達(dá)方向檢測 (DOA)

此算法會比較不同麥克風(fēng)上檢測到的信號在到達(dá)時(shí)間上的輕微延遲。自然地，每個(gè)麥克風(fēng)對人類語音特性的拾取應(yīng)具有選擇性。然后，檢測的準(zhǔn)確性取決于所用麥克風(fēng)的數(shù)量和這些麥克風(fēng)的分布情況。

智能揚(yáng)聲器或智能電視等高端設(shè)備通常會假定講話人距離較遠(yuǎn)，因此 DOA 將會相當(dāng)準(zhǔn)確。中端市場產(chǎn)品通常會離講話人更近，并且?guī)缀蹩隙〞褂酶俚柠溈孙L(fēng)，因此必須相應(yīng)調(diào)整。這一因素對于波束成型技術(shù)尤其應(yīng)予以考慮，而且對下一節(jié)中的降噪至關(guān)重要。

降噪

可以說，最好的降噪方式是空間降噪 - 使用波束成型技術(shù)放大講話人聲音。這再次需要多個(gè)麥克風(fēng)，并使用 DOA 作為起點(diǎn)來選擇應(yīng)放大的位置。您可以使用的麥克風(fēng)越多，放大講話人聲音的準(zhǔn)確度就越高，從而有效抑制所有其他噪音源。但即使使用兩個(gè)麥克風(fēng)，您也可以在一個(gè)麥克風(fēng)上提高甄別水平。

圖3 使用 3 個(gè)麥克風(fēng)和 7 個(gè)麥克風(fēng)的波束形成器濾波模式

對于單個(gè)麥克風(fēng)，不能進(jìn)行波束成型。如果講話人自然靠近麥克風(fēng)，這可能不成問題。例如，耳塞通過骨傳導(dǎo)進(jìn)行語音拾取時(shí)，可能已充分達(dá)到無噪音的程度。還請記住，對于語音識別，云提供商建議不要使用濾波器來消除噪音，因?yàn)檫@些濾波器可能同時(shí)會降低識別精度。

回聲消除

回聲（主要來自房間周圍的固定表面）會產(chǎn)生與講話人信號有關(guān)的背景噪音波尾。在低端設(shè)備上，設(shè)備的揚(yáng)聲器和塑料盒往往會增加噪音甚至產(chǎn)生非線性影響。這意味著 AEC 算法不僅必須可根據(jù)環(huán)境回波調(diào)整，還必須針對來自設(shè)備外殼的任何可能噪音進(jìn)行調(diào)整。

圖 4 AEC 使用的標(biāo)準(zhǔn)拾音路徑

圖 5 3 個(gè)不同房間的回波波尾隨時(shí)間而變化的振幅比

跨界的 CEVA ClearVox

正如您看到的，當(dāng)涉及到準(zhǔn)確的語音拾取時(shí)，一種規(guī)格并非處處適用。必須設(shè)計(jì)不同的解決方案以滿足不同的市場需求，即分別制定高端市場和大眾市場目標(biāo)。CEVA 可以幫助您同時(shí)滿足這兩個(gè)目標(biāo)，讓您從具有 NN 輔助算法和用于音頻縮放的許多麥克風(fēng)的高端技術(shù)中獲得最大價(jià)值，或者從具有基于能量的語音活動檢測和僅有兩個(gè)甚至一個(gè)麥克風(fēng)的實(shí)惠技術(shù)中獲得最大價(jià)值。CEVA 在這一領(lǐng)域擁有多年的豐富經(jīng)驗(yàn)。在用于耳塞、耳機(jī)和空間音頻的應(yīng)用中，所有這些經(jīng)驗(yàn)都整合在我們的 CEVA ClearVox 產(chǎn)品中，該產(chǎn)品支持 CEVA DSP 和 ARM 平臺。

（本文來源于《電子產(chǎn)品世界》雜志2021年9月期）

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 202109 語音 人工智能

評論

相關(guān)推薦

AMD斥資6.65億美元收購芬蘭AI公司 Silo AI

智能計(jì)算 AMD silo AI 人工智能 | 2024-07-15

人工智能與機(jī)器人

視頻物聯(lián)網(wǎng) 可穿戴設(shè)備智能硬件高峰論壇機(jī)器人人工智能 | 2015-01-19

API840N 40秒多功能可編程語音電路

資源下載語音語音電路 API840N 40秒 | 2007-12-25

便攜式有害氣體預(yù)警器

視頻信息技術(shù)大賽單片機(jī) STC15F2K60S2 傳感器語音便攜式 | 2013-01-18

ZY1420B高保真語音錄放模塊

資源下載致遠(yuǎn)電子高保真語音錄放 ZY1420B | 2007-03-30

革新企業(yè)數(shù)據(jù)管理，邁向“真正的”混合云時(shí)代

人工智能 AI | 2024-07-03

ZY1420語音編程器幫助手冊

資源下載語音編程器幫助手冊 ZY1420 | 2007-03-30

多路語音同傳系統(tǒng)

視頻信息技術(shù)大賽 FPGA EP1C3T100C8N 語音 | 2013-01-16

智能電梯控制

視頻信息技術(shù)大賽 kinetis k10 語音感應(yīng)器 | 2013-01-18

IP電話語音質(zhì)量的評價(jià)與分析

liujt_ic | 2002-12-31

工信部人工智能標(biāo)準(zhǔn)化技術(shù)委員會籌建方案公示

智能計(jì)算工信部人工智能 | 2024-07-03

傳蘋果智能將錯過iOS 18 9月份大升級推遲1個(gè)月發(fā)布

手機(jī)與無線通信蘋果智能 iOS 18 推遲人工智能 iPhone iPad Apple Intelligence | 2024-07-29

推動電動汽車發(fā)展：利用機(jī)器視覺和人工智能提升鋰離子電池質(zhì)量

智能計(jì)算電動汽車機(jī)器視覺檢測人工智能 | 2024-07-18

ST Edge AI Suite人工智能開發(fā)套件正式上線快采用意法半導(dǎo)體技術(shù)的AI產(chǎn)品開發(fā)速度

智能計(jì)算 ST Edge AI Suite 人工智能意法半導(dǎo)體 AI | 2024-07-08

OpenAI陷入安全危機(jī)：攻擊者成功入侵內(nèi)部消息系統(tǒng)

OpenAI 人工智能 | 2024-07-08

智能型多芯片數(shù)碼語音錄放電路

資源下載語音芯片數(shù)碼錄放電路 | 2007-12-25

1 科大訊飛語音服務(wù)概述

視頻科大訊飛 Android 語音 | 2015-07-07

VOIP：IP語音技術(shù)

xiaohua | 2002-12-05

電話嵌入式語音技術(shù)離我們有多遠(yuǎn)？

hpnet | 2002-08-21

自動語音記錄監(jiān)控系統(tǒng)

jackwang | 2002-08-16

LCD微處理器語音合成系列

設(shè)計(jì)方案微處理器語音合成系列 | 2009-07-06

自適應(yīng)脈沖編碼語音合成系列

設(shè)計(jì)方案適應(yīng) 脈沖編碼語音合成系列 | 2009-07-06

馬斯克詢問網(wǎng)友：特斯拉向xAI投50億美元行不行

智能計(jì)算馬斯克特斯拉 xAI 人工智能 | 2024-07-25

數(shù)字脈沖編碼調(diào)制語音合成系列

設(shè)計(jì)方案數(shù)字脈沖編碼調(diào)制語音合成系列 | 2009-07-06

語音音樂語音合成系列

設(shè)計(jì)方案語音音樂合成系列 | 2009-07-06

招聘信息

jackwang | 2003-01-20

新一代語音識別：可徹底改變車內(nèi)體驗(yàn)的技術(shù)

汽車電子語音識別生物識別人工智能 | 2024-07-18

陣列式語音合成系列

設(shè)計(jì)方案列式語音合成系列 | 2009-07-06

語音錄放和處理資料

資源下載語音錄放和處理 | 2007-03-27

借助電源完整性測試提高人工智能數(shù)據(jù)中心的能效

測試測量電源完整性測試人工智能數(shù)據(jù)中心 | 2024-07-19

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();