生成式人工智能音頻快速發(fā)展：高信噪比MEMS麥克風(fēng)功不可沒

作者：Sofia Cucalon，Julian Kornprobst 時(shí)間：2024-06-21 來源：英飛凌

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

最新一代人工智能或?qū)㈤_啟新一輪科技革命，全面提升各種人機(jī)交互體驗(yàn)。

本文引用地址：http://www.ex-cimer.com/article/202406/460178.htm

人工智能日益融入人們的日常生活，在方方面面帶來深刻變化?；谌斯ぶ悄艿奈谋竞蛨D像生成工具可以創(chuàng)建出令人難以置信的內(nèi)容。不僅如此，人工智能的觸角已從視覺和文字媒介，伸向語音轉(zhuǎn)文字（STT）和自然語言處理（NLP）等音頻應(yīng)用，展現(xiàn)出巨大潛力。然而，音頻應(yīng)用質(zhì)量大幅提高是否僅僅歸功于最新一代基于大語言模型的生成式人工智能？還是說硬件依然功不可沒？就拿高信噪比（SNR）微機(jī)電系統(tǒng)（MEMS）麥克風(fēng)來說，它為實(shí)現(xiàn)這種必將改變?nèi)藗內(nèi)粘Ｉ畹男沦|(zhì)人機(jī)交互做出了什么貢獻(xiàn)？本文將探討這些問題并深入分析高信噪比MEMS麥克風(fēng)在文字轉(zhuǎn)語音（TTS）和自然語言處理（NLP）等前沿音頻應(yīng)用的發(fā)展中所起的關(guān)鍵作用。

人們每天佩戴耳機(jī)的時(shí)間越來越長。隨著越來越多的人選擇在咖啡館等公共場(chǎng)所辦公，為了靜享安寧或是參加會(huì)議，人們紛紛使用耳機(jī)來隔絕外界喧囂。閑暇時(shí)，人們也愿意戴著耳機(jī)打游戲、聽音樂或有聲讀物或者與朋友交談。由于佩戴時(shí)間越來越長，除舒適度之外，音頻質(zhì)量也成為重要的選購標(biāo)準(zhǔn)。越來越多的人在選購耳機(jī)時(shí)對(duì)“高級(jí)音頻功能”感興趣，如空間音頻、清晰語音通話和低延遲等。

語音識(shí)別和語音生成是消費(fèi)電子產(chǎn)品和汽車的重要音頻功能。近幾年來，包括Siri和Alexa在內(nèi)的語音助手一直在簡化操作并推出新的應(yīng)用，如通過語音命令控制智能家居設(shè)備。如今，從智能手機(jī)（圖1）和耳機(jī)到智能電視、智能音箱、智能家居設(shè)備、筆記本電腦和平板電腦，各式各樣的設(shè)備都配備了集成語音助手。集成在設(shè)備中的語音助手（如智能手機(jī)、耳機(jī)、智能電視和智能音箱）依賴于這些麥克風(fēng)捕捉到的高質(zhì)量音頻輸入。高信噪比（信號(hào)與噪聲比）麥克風(fēng)在實(shí)現(xiàn)卓越音頻質(zhì)量方面起著關(guān)鍵作用；對(duì)于遠(yuǎn)場(chǎng)應(yīng)用，如智能音箱，高信噪比麥克風(fēng)可以更好地捕捉音頻；真無線耳機(jī)（TWS）中的主動(dòng)降噪（ANC）和透?jìng)髂Ｊ降裙δ芤彩芤嬗诟咝旁氡塞溈孙L(fēng)，提升了用戶體驗(yàn)。汽車也廣泛使用語音助手來控制多種不同功能，以便駕駛員雙手不離開方向盤即可完成操作。

SAR預(yù)測(cè)，到2028年，帶集成語音助手的設(shè)備的市場(chǎng)總銷量將增至每年30億臺(tái)，復(fù)合年增長率達(dá)5%。1

人工智能在音頻領(lǐng)域的應(yīng)用前景

另外目前的系統(tǒng)還不夠完美?？谝簟⒄Z病或簡單的背景噪聲等仍然會(huì)導(dǎo)致語音識(shí)別失敗。語音輸出聽起來也非常生硬，與真人發(fā)音有很大差別。

最新一代人工智能或?qū)㈤_啟新一輪科技革命，全面提升各種人機(jī)交互體驗(yàn)。生成式人工智能音頻的優(yōu)勢(shì)不僅在于增強(qiáng)語音助手的功能，還在于它能夠更好地理解人類的意圖。例如，人工智能生成語音與真人發(fā)音幾乎難以分辨，從而可以為視障群體提供更好的幫助。各種數(shù)字平臺(tái)都可以利用人工智能音頻來提升用戶體驗(yàn)，娛樂行業(yè)或客戶支持領(lǐng)域也可以探索人工智能音頻帶來的新的可能性。

生成式人工智能音頻的一個(gè)重要應(yīng)用是語音轉(zhuǎn)文字，即將說的話轉(zhuǎn)換成文字。使用人工智能可以提高速度和準(zhǔn)確率。語音轉(zhuǎn)文字（STT）結(jié)合文字轉(zhuǎn)語音（TTS），可以在諸如筆記本電腦或智能手機(jī)等消費(fèi)電子產(chǎn)品中實(shí)現(xiàn)多種應(yīng)用，包括集成語音助手以及自動(dòng)轉(zhuǎn)錄會(huì)議。在會(huì)議中，基于人工智能的應(yīng)用可以總結(jié)出，以把握討論的精神實(shí)質(zhì)。在會(huì)議進(jìn)行過程中，您可以查看不同人提出的觀點(diǎn)，以確保全面考慮每個(gè)人的意見。

自然語言處理（NLP）和生成富有表現(xiàn)力的語音

自然語言處理（NLP）是生成式人工智能語音的基礎(chǔ)技術(shù)。它致力于理解口頭語言的含義，而不考慮口音、口語化表達(dá)、發(fā)音含糊不清以及口頭語言與書面語言之間的其他差異。自然語言處理還可以根據(jù)語速、語調(diào)和語氣，識(shí)別出觀點(diǎn)和情緒。人可以發(fā)出各種各樣的聲音，因此，自然語言處理的聲音采集必須盡可能準(zhǔn)確地捕捉到純凈的語音信號(hào)，同時(shí)將背景噪聲、雜音和其他外部影響降至最低。換句話說，麥克風(fēng)和信號(hào)處理有助于顯著提高自然語言處理質(zhì)量。

要實(shí)現(xiàn)出色的語音識(shí)別，必須用盡可能多的不同真人聲音對(duì)人工智能進(jìn)行訓(xùn)練。只有這樣，它才能處理語音的微妙之處并理解口語文字。

適用于人工智能音頻的MEMS麥克風(fēng)

同自然語言處理的情況一樣，人工智能音頻必須借助的硬件才能高質(zhì)量地完成任務(wù)。首先是將人類語音產(chǎn)生的聲波轉(zhuǎn)換成電信號(hào)，轉(zhuǎn)換質(zhì)量直接關(guān)系到對(duì)所捕捉信號(hào)的理解。任何轉(zhuǎn)換損失或劣化都會(huì)降低語音轉(zhuǎn)文字的準(zhǔn)確率。

麥克風(fēng)是音頻鏈中的第一個(gè)環(huán)節(jié)，在人工智能音頻設(shè)備必須選擇合適的麥克風(fēng)。MEMS麥克風(fēng)可謂當(dāng)仁不讓：它們不僅具備高性能和低功耗，而且外形小巧，可輕松集成到各式各樣的設(shè)備中。

MEMS麥克風(fēng)主要由三個(gè)部分組成（圖2）。首先是用作傳感元件的微機(jī)電系統(tǒng)：膜片和背極板共同構(gòu)成一個(gè)電容器，聲波使膜片振動(dòng)，振動(dòng)導(dǎo)致電容變化從而產(chǎn)生電信號(hào)。第二個(gè)組成部分是專用集成電路（ASIC），其中包含向膜片施加電壓的電荷泵、放大器、穩(wěn)定輸入電壓的穩(wěn)壓器（LDO）和校準(zhǔn)邏輯電路。第三個(gè)組成部分是封裝，它將這些元件集于一體，提供保護(hù)和屏蔽并形成后腔室。

圖片.png

MEMS麥克風(fēng)框圖

要在有背景噪聲、口音或講話人與麥克風(fēng)之間的距離不理想等困難條件下，識(shí)別出語音的細(xì)微差別，麥克風(fēng)的信噪比是關(guān)鍵特性。麥克風(fēng)的所有元件（MEMS、ASIC、封裝和入聲孔）都會(huì)產(chǎn)生自噪聲。信噪比描述了麥克風(fēng)固有的自噪聲相對(duì)于標(biāo)準(zhǔn)參考信號(hào)的強(qiáng)度。信噪比越高，能提供更穩(wěn)定、更清晰的語音和數(shù)據(jù)傳輸，減少噪聲干擾，提高設(shè)備性能和穩(wěn)定性。

XENSIV? MEMS麥克風(fēng)帶給人工智能音頻的優(yōu)勢(shì)

如上所述，人工智能音頻設(shè)備需要采用高信噪比麥克風(fēng)來實(shí)現(xiàn)準(zhǔn)確的語音識(shí)別。英飛凌已經(jīng)成功地研發(fā)了許多高性能MEMS麥克風(fēng)2，包括具有革命性意義的密封雙膜（SDM）MEMS麥克風(fēng)技術(shù)。它使用兩個(gè)膜片和一個(gè)帶電定子來形成一個(gè)密封的低壓腔（圖3）和一個(gè)差分輸出信號(hào)，這種架構(gòu)可實(shí)現(xiàn)超高信噪比（高達(dá)75 dB）和極低失真，并為麥克風(fēng)提供防水防塵高防護(hù)（IP57）。

圖片.png

SDM技術(shù)使用兩個(gè)膜片和一個(gè)帶電定子來形成一個(gè)密封的低壓腔和一個(gè)差分輸出信號(hào)從而實(shí)現(xiàn)超高信噪比和極低失真

英飛凌XENSIV? IM73A135正是應(yīng)用了這個(gè)技術(shù)，信噪比達(dá)到73 dB，處于行業(yè)內(nèi)領(lǐng)先地位特別適合人工智能音頻等要求嚴(yán)格的應(yīng)用。其4×3 mm2封裝允許將聲音捕捉單元小型化，以便輕松將人工智能語音技術(shù)集成到各種設(shè)備中，包括筆記本電腦、會(huì)議電話以及智能音箱和智能手機(jī)等。

XENSIV? MEMS麥克風(fēng)的另一個(gè)優(yōu)點(diǎn)是低能耗。它們提供多種不同工作模式，通過節(jié)能來幫除了性能領(lǐng)先助提高設(shè)備的功率效率。許多帶生成式人工智能語音功能的設(shè)備都是電池供電的便攜式設(shè)備，低能耗對(duì)于延長電池續(xù)航尤為重要。

得益于其尺寸小巧、經(jīng)濟(jì)劃算和低功耗，在一臺(tái)設(shè)備中配置多個(gè)麥克風(fēng)。這樣可以檢測(cè)并降低背景噪聲，提高語音識(shí)別準(zhǔn)確率。還可以采用波束成形算法，從背景噪聲中分離出并拾取特定講話人的語音。

如今人們很重視改善音頻質(zhì)量，市場(chǎng)數(shù)據(jù)也反映出MEMS麥克風(fēng)的優(yōu)勢(shì)。高信噪比MEMS麥克風(fēng)市場(chǎng)的增長速度明顯超過低信噪比麥克風(fēng)市場(chǎng)。Omdia預(yù)計(jì)，信噪比高于64 dB的MEMS麥克風(fēng)在消費(fèi)領(lǐng)域的復(fù)合年增長率將達(dá)到8.7%，到2027年銷售量將接近30億個(gè)3。

英飛凌很早就預(yù)見到這一趨勢(shì)，我們一直在研發(fā)適用于人工智能音頻應(yīng)用等的高性能MEMS麥克風(fēng)。

除了性能領(lǐng)先的73-dB信噪比之外，具備更高信噪比、更低功耗的MEMS麥克風(fēng)也即將相繼面市。

圖片.png

XENSIV? MEMS麥克風(fēng)的主要價(jià)值指標(biāo)

結(jié)語

在生成式人工智能音頻領(lǐng)域，高信噪比MEMS麥克風(fēng)起到了至關(guān)重要的作用。隨著人工智能推動(dòng)語音轉(zhuǎn)文字（STT）等音頻應(yīng)用不斷發(fā)展，MEMS麥克風(fēng)也通過捕捉細(xì)致入微的語音數(shù)據(jù)，為提高語音識(shí)別準(zhǔn)確率發(fā)揮了積極作用，助力在消費(fèi)電子產(chǎn)品和面向視障群體的無障礙功能等領(lǐng)域?qū)崿F(xiàn)更加自然而實(shí)用的人工智能音頻。充分利用優(yōu)質(zhì)MEMS麥克風(fēng)的這些優(yōu)點(diǎn)，人工智能音頻將在未來幾年開辟更多應(yīng)用領(lǐng)域，包括語音克隆、語音情緒識(shí)別等等。

英飛凌科技自主研發(fā)和生產(chǎn)MEMS麥克風(fēng)的所有組件。英飛凌可以針對(duì)每種應(yīng)用，確定MEMS、ASIC和封裝的最佳組合以實(shí)現(xiàn)最優(yōu)性能。這為改善用戶體驗(yàn)和拓寬人工智能音頻應(yīng)用領(lǐng)域鋪平了道路。

參考文獻(xiàn)

1 SAR Insight & Consulting發(fā)布的《語音助手平臺(tái)預(yù)測(cè)》，2023年。

2 英飛凌科技。

3 Omdia（2023年發(fā)布）《MEMS麥克風(fēng)調(diào)研報(bào)告》。