<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 新聞縱覽 > 炬芯科技周正宇：Actions Intelligence 端側(cè)AI音頻芯未來

炬芯科技周正宇：Actions Intelligence 端側(cè)AI音頻芯未來

作者：時間：2024-11-08 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

ChatGPT激發(fā)了人們的好奇心也打開了人們的想象力，伴隨著生成式AI（Generative AI）以史無前例的速度被廣泛采用，AI算力的需求激增。與傳統(tǒng)計算發(fā)展路徑類似，想讓AI普及且發(fā)掘出AI的全部潛力，AI計算必須合理的分配在云端服務器和端側(cè)裝置（如PC，手機，汽車, IoT裝置），而不是讓云端承載所有的AI負荷。這種云端和端側(cè)AI協(xié)同作戰(zhàn)的架構(gòu)被稱為混合AI(Hybrid AI)，將提供更強大，更有效和更優(yōu)化的AI。換句話說，要讓AI真正觸手可及，深入日常生活中的各種場景，離不開端側(cè)AI的落地。

端側(cè)AI將機器學習帶入每一個IoT設備，減少對云端算力的依賴，可在無網(wǎng)絡連接或者網(wǎng)絡擁擠的情況下，提供低延遲AI體驗、還具備低功耗，高數(shù)據(jù)隱私性和個性化等顯著優(yōu)勢。AIoT的一個最重要載體是電池驅(qū)動的超低功耗小型IoT設備，其數(shù)量龐大且應用豐富，在新一代AI的浪潮中，端側(cè)AI是實現(xiàn)人工智能無處不在的關鍵，而為電池驅(qū)動的低功耗IoT裝置賦能AI又是讓端側(cè)AI變?yōu)楝F(xiàn)實的關鍵。

2024年11月5日，炬芯科技股份有限公司董事長兼CEO周正宇博士受邀出席Aspencore2024全球CEO峰會，結(jié)合AI時代熱潮及端側(cè)AI所帶來的新一代AI趨勢，分享炬芯科技在低功耗端側(cè)AI音頻的創(chuàng)新技術及重磅產(chǎn)品，發(fā)表主題演講：《Actions Intelligence: 端側(cè)AI音頻芯未來》。

本文引用地址：http://www.ex-cimer.com/article/202411/464439.htm

周正宇博士表示：在從端側(cè)AI到生成式AI的廣泛應用中，不同的AI應用對算力資源需求差異顯著，而許多端側(cè)AI應用是專項應用, 并不需要大模型和大算力。尤其是以語音交互，音頻處理，預測性維護，健康監(jiān)測等為代表的AIoT領域。

在便攜式產(chǎn)品和可穿戴產(chǎn)品等電池驅(qū)動的IoT設備中，炬芯科技致力于在毫瓦級功耗下實現(xiàn)TOPS級別的AI算力，以滿足IoT設備對低功耗、高能效的需求。以穿戴產(chǎn)品（耳機和手表）為例，平均功耗在10mW-30mW之間，存儲空間在10MB以下，這框定了低功耗端側(cè)AI，尤其是可穿戴設備的資源預算。

周正宇博士指出”Actions Intelligence”是針對電池驅(qū)動的端側(cè)AI落地提出的戰(zhàn)略，將聚焦于模型規(guī)模在一千萬參數(shù)（10M）以下的電池驅(qū)動的低功耗音頻端側(cè)AI應用，致力于為低功耗AIoT裝置打造在10mW-100mW之間的功耗下提供0.1-1TOPS的通用AI算力。也就是說”Actions Intelligence“將挑戰(zhàn)目標10TOPS/W-100TOPS/W的AI算力能效比。根據(jù)ABI Research預測，端側(cè)AI市場正在快速增長，預計到2028年，基于中小型模型的端側(cè)AI設備將達到40億臺，年復合增長率為32%。到2030年，預計75%的這類AIoT設備將采用高能效比的專用硬件。

現(xiàn)有的通用CPU和DSP解決方案雖然有非常好的算法彈性，但是算力和能效遠遠達不成以上目標，依據(jù)ARM和Cadence的公開資料，同樣使用28/22nm工藝，ARM A7 CPU 運行頻率1.2GHz時可獲取0.01TOPS的理論算力，需要耗電100mW，即理想情況下的能效比僅為0.1TOPS/W；HiFi4 DSP運行600MHz時可獲取0.01TOPS的理論算力，需要耗電40mW，即理想情況下的能效比0.25TOPS/W。即便專用神經(jīng)網(wǎng)路加速器（NPU）的IP ARM周易能效比大幅提升，但也僅為2TOPS/W。

以上傳統(tǒng)技術的能效比較差的本質(zhì)原因均源于傳統(tǒng)的馮?諾依曼計算結(jié)構(gòu)。傳統(tǒng)的馮?諾伊曼計算系統(tǒng)采用存儲和運算分離的架構(gòu)，存在“存儲墻”與“功耗墻”瓶頸，嚴重制約系統(tǒng)算力和能效的提升。

在馮?諾伊曼架構(gòu)中，計算單元要先從內(nèi)存中讀取數(shù)據(jù)，計算完成后，再存回內(nèi)存。隨著半導體產(chǎn)業(yè)的發(fā)展和需求的差異，處理器和存儲器二者之間走向了不同的工藝路線。由于工藝、封裝、需求的不同，存儲器數(shù)據(jù)訪問速度跟不上處理器的數(shù)據(jù)處理速度，數(shù)據(jù)傳輸就像處在一個巨大的漏斗之中，不管處理器灌進去多少，存儲器都只能“細水長流”。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題，在存儲與運算之間筑起了一道“存儲墻”。

此外，在傳統(tǒng)架構(gòu)下，數(shù)據(jù)從內(nèi)存單元傳輸?shù)接嬎銌卧枰墓氖怯嬎惚旧淼脑S多倍，因此真正用于計算的能耗和時間占比很低，數(shù)據(jù)在存儲器與處理器之間的頻繁遷移帶來嚴重的傳輸功耗問題，稱為“功耗墻”。

周正宇博士表示：弱化或消除”存儲墻”及”功耗墻”問題的方法是采用存內(nèi)計算Computing-in-Memory（CIM）結(jié)構(gòu)。其核心思想是將部分或全部的計算移到存儲中，讓存儲單元具有計算能力，數(shù)據(jù)不需要單獨的運算部件來完成計算，而是在存儲單元中完成存儲和計算，消除了數(shù)據(jù)訪存延遲和功耗，是一種真正意義上的存儲與計算融合。同時，由于計算完全依賴于存儲，因此可以開發(fā)更細粒度的并行性，大幅提升性能尤其是能效比。

機器學習的算法基礎是大量的矩陣運算，適合分布式并行處理的運算，存內(nèi)計算非常適用于人工智能應用。

要在存儲上做計算，存儲介質(zhì)的選擇是成本關鍵。單芯片為王，炬芯的目標是將低功耗端側(cè)AI的計算能力和其他SoC的模塊集成于一顆芯片中，于是使用特殊工藝的DDR RAM和Flash無法在考慮范圍內(nèi)。而采用標準SoC適用的CMOS工藝中的SRAM和新興NVRAM（如RRAM或者MRAM）進入視野。SRAM工藝非常成熟，且可以伴隨著先進工藝升級同步升級，讀寫速度快、能效比高，并可以無限多次讀寫。唯一缺陷是存儲密度較低，但對于絕大多數(shù)端側(cè)AI的算力需求，該缺陷不會成為阻力。短期內(nèi)，SRAM是在低功耗端側(cè)AI設備上打造高能效比的最佳技術路徑，且可以快速落地，沒有量產(chǎn)風險。

長期來看，新興NVRAM 如RRAM由于密度高于SRAM，讀功耗低，也可以集成入SoC，給存內(nèi)計算架構(gòu)提供了想象空間。但是RRAM工藝尚不成熟，大規(guī)模量產(chǎn)依然有一定風險，制程最先進只能到22nm，且存在寫次數(shù)有限的致命傷（超過會永久性損壞）。故周正宇博士預期未來當RRAM技術成熟以后，SRAM 跟RRAM的混合技術有機會成為最佳技術路徑，需要經(jīng)常寫的AI計算可以基于SRAM的CIM實現(xiàn)，不經(jīng)?；蛘哂邢薮螖?shù)寫的AI計算由RRAM的CIM實現(xiàn)，基于這種混合技術有望實現(xiàn)更大算力和更高的能效比。

業(yè)界公開的基于SRAM的CIM電路有兩種主流的實現(xiàn)方法，一是在SRAM盡量近的地方用數(shù)字電路實現(xiàn)計算功能，由于計算單元并未真正進入SRAM陣列，本質(zhì)上這只能算是近存技術。另一種思路是在SRAM介質(zhì)里面利用一些模擬器件的特性進行模擬計算，這種技術路徑雖然實現(xiàn)了真實的CIM，但缺點也很明顯。一方面模擬計算的精度有損失，一致性和可量產(chǎn)性完全無法保證，同一顆芯片在不同的時間不同的環(huán)境下無法確保同樣的輸出結(jié)果。另一方面它又必須基于ADC和DAC來完成基于模擬計算的CIM和其他數(shù)字模塊之間的信息交互, 整體數(shù)據(jù)流安排以及界面交互設計限制多,不容易提升運行效率。

炬芯科技創(chuàng)新性的采用了基于模數(shù)混合設計的電路實現(xiàn)CIM，在SRAM介質(zhì)內(nèi)用客制化的模擬設計實現(xiàn)數(shù)字計算電路，既實現(xiàn)了真正的CIM，又保證了計算精度和量產(chǎn)一致性。

周正宇博士認為，炬芯科技選擇基于模數(shù)混合電路的SRAM存內(nèi)計算（Mixed-Mode SRAM based CIM，簡稱MMSCIM）的技術路徑，具有以下幾點顯著的優(yōu)勢：

第一，比純數(shù)字實現(xiàn)的能效比更高，并幾乎等同于純模擬實現(xiàn)的能效比；

第二，無需ADC/DAC, 數(shù)字實現(xiàn)的精度，高可靠性和量產(chǎn)一致性，這是數(shù)字化天生的優(yōu)勢；

第三，易于工藝升級和不同F(xiàn)AB間的設計轉(zhuǎn)換；

第四，容易提升速度，進行性能/功耗/面積(PPA)的優(yōu)化；

第五，自適應稀疏矩陣，進一步節(jié)省功耗，提升能效比。

而對于高質(zhì)量的音頻處理和語音應用，MMSCIM是最佳的未來低功耗端側(cè)AI音頻技術架構(gòu)。由于減少了在內(nèi)存和存儲之間數(shù)據(jù)傳輸?shù)男枨?，它可以大幅降低延遲，顯著提升性能，有效減少功耗和熱量產(chǎn)生。對于要在追求極致能效比電池供電IoT設備上賦能AI，在每毫瓦下打造盡可能多的 AI 算力，炬芯科技采用的MMSCIM技術是真正實現(xiàn)端側(cè)AI落地的最佳解決方案。

周正宇博士首次公布了炬芯科技MMSCIM路線規(guī)劃，從路線圖中顯示：

1、炬芯第一代(GEN1)MMSCIM已經(jīng)在2024年落地， GEN1 MMSCIM采用22 納米制程，每一個核可以提供100 GOPS的算力，能效比高達6.4 TOPS/W @INT8；

2、到 2025 年，炬芯科技將推出第二代（GEN2）MMSCIM，GEN2 MMSCIM采用22 納米制程，性能將相較第一代提高三倍，每個核提供300GOPS算力，直接支持Transformer模型，能效比也提高到7.8TOPS/W @INT8；

3、到 2026 年，推出新制程12 納米的第三代（GEN3）MMSCIM，GEN3 MMSCIM每個核達到1 TOPS的高算力，支持Transformer，能效比進一步提升至15.6TOPS/W @INT8。

以上每一代MMSCIM技術均可以通過多核疊加的方式來提升總算力，比如MMSCIM GEN2單核是300 GOPS算力，可以通過四個核組合來達到高于1TOPS的算力。

炬芯科技成功落地了第一代MMSCIM在500MHz時實現(xiàn)了0.1TOPS的算力，并且達成了6.4TOPS/W的能效比，受益于其對于稀疏矩陣的自適應性，如果有合理稀疏性的模型（即一定比例參數(shù)為零時），能效比將進一步得到提升，依稀疏性的程度能效比可達成甚至超過10TOPS/W。基于此核心技術的創(chuàng)新，炬芯科技打造出了下一代低功耗大算力、高能效比的端側(cè)AI音頻芯片平臺。

周正宇代表炬芯科技正式發(fā)布全新一代基于MMSCIM端側(cè)AI音頻芯片，共三個芯片系列：

1、第一個系列是 ATS323X，面向低延遲私有無線音頻領域；

2、第二個系列是ATS286X，面向藍牙AI音頻領域；

3、第三個系列是 ATS362X，面向AI DSP領域。

三個系列芯片均采用了CPU（ARM）+ DSP（HiFi5）+ NPU（MMSCIM）三核異構(gòu)的設計架構(gòu)，炬芯的研發(fā)人員將MMSCIM和先進的HiFi5 DSP融合設計形成了炬芯科技“Actions Intelligence NPU（AI-NPU）”架構(gòu)，并通過協(xié)同計算，形成一個既高彈性又高能效比的NPU架構(gòu)。在這種AI-NPU架構(gòu)中MMSCIM支持基礎性通用AI算子，提供低功耗大算力。同時，由于AI新模型新算子的不斷涌現(xiàn)，MMSCIM沒覆蓋的新興特殊算子則由HiFi5 DSP來予以補充。

以上全部系列的端側(cè)AI芯片，均可支持片上1百萬參數(shù)以內(nèi)的AI模型，且可以通過片外PSRAM擴展到支持最大8百萬參數(shù)的AI模型，同時炬芯科技為AI-NPU打造了專用AI開發(fā)工具“ANDT”，該工具支持業(yè)內(nèi)標準的AI開發(fā)流程如Tensorflow，HDF5，Pytorch和Onnx。同時它可自動將給定AI算法合理拆分給CIM和HiFi5 DSP去執(zhí)行。 ANDT是打造炬芯低功耗端側(cè)音頻AI生態(tài)的重要武器。借助炬芯ANDT工具鏈輕松實現(xiàn)算法的融合，幫助開發(fā)者迅速地完成產(chǎn)品落地。

根據(jù)周正宇博士公布的第一代MMSCIM和HiFi5 DSP能效比實測結(jié)果的對比顯示：

當炬芯科技GEN1 MMSCIM與HiFi5 DSP均以500MHz運行同樣717K參數(shù)的Convolutional Neural Network（CNN）網(wǎng)路模型進行環(huán)境降噪時，MMSCIM相較于HiFi5 DSP可降低近98%功耗，能效比提升達44倍。而在測試使用935K 參數(shù)的CNN網(wǎng)路模型進行語音識別時，MMSCIM相較于HiFi5 DSP可降低93%功耗，能效比提升14倍。

另外，在測試使用更復雜的網(wǎng)路模型進行環(huán)境降噪時，運行Deep Recurrent Neural Network模型時，相較于HiFi5 DSP可降低89%功耗；運行Convolutional Recurrent Neural Network模型時，相較于HiFi5 DSP可降低88%功耗；運算Convolutional Deep Recurrent Neural Network模型時，相較于HiFi5 DSP可降低76%功耗。

最后，相同條件下在運算某CNN-Con2D算子模型時，GEN1 MMSCIM的實測AI算力可比HiFi5 DSP的實測算力高16.1倍。

綜上所述，炬芯科技此次推出的最新一代基于MMSCIM端側(cè)AI音頻芯片，對于產(chǎn)業(yè)的影響深遠，有望成為引領端側(cè)AI技術的新潮流。

從ChatGPT到Sora，文生文、文生圖、文生視頻、圖生文、視頻生文，各種不同的云端大模型不斷刷新人們對AI的預期。然而，AI發(fā)展之路依然漫長，從云到端將會是一個新的發(fā)展趨勢，AI的世界即將開啟下半場。

以低延遲、個性服務和數(shù)據(jù)隱私保護等優(yōu)勢，端側(cè)AI在IoT設備中扮演著越來越重要的角色，在制造、汽車、消費品等多個行業(yè)中展現(xiàn)更多可能性?；赟RAM的模數(shù)混合CIM技術路徑，炬芯科技新產(chǎn)品的發(fā)布踏出了打造低功耗端側(cè) AI 算力的第一步，成功實現(xiàn)了在產(chǎn)品中整合 AI 加速引擎，推出CPU+ DSP + NPU 三核 AI 異構(gòu)的端側(cè)AI音頻芯片。

最后，周正宇博士衷心希望可以通過”Actions Intelligence”戰(zhàn)略讓AI真正的隨處可及。未來，炬芯科技將繼續(xù)加大端側(cè)設備的邊緣算力研發(fā)投入，通過技術創(chuàng)新和產(chǎn)品迭代，實現(xiàn)算力和能效比進一步躍遷，提供高能效比、高集成度、高性能和高安全性的端側(cè) AIoT 芯片產(chǎn)品，推動 AI 技術在端側(cè)設備上的融合應用，助力端側(cè)AI生態(tài)健康、快速發(fā)展。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞：

評論

相關推薦

智能編程助手！華為云CodeArts Snap免費公測：基于盤古研發(fā)大模型

智能計算華為 AI 智能編程 | 2024-01-03

PDIUSBD12 固件編程指南

資源下載 USB PDIUSBD12 固件編程 | 2007-02-16

WinCE+ARM開發(fā)及關鍵技術下

視頻嵌入式 ARM WinCE | 2009-10-22

DB2二十年記

liujt_ic | 2003-05-08

益萊儲2024新年展望：迎接數(shù)字化和可持續(xù)發(fā)展的機遇與挑戰(zhàn)

測試測量益萊儲測試測量 2024 | 2024-01-03

基于Vxwoks OS的嵌入式系統(tǒng)開發(fā) 上

視頻 Vxwoks 嵌入式系統(tǒng) | 2009-10-22

Philip LPC2100開發(fā)板原理圖

資源下載 Philip LPC2100 開發(fā)板原理圖 | 2007-02-16

PCB設計經(jīng)驗談

資源下載 PCB PCB設計經(jīng)驗 | 2007-02-16

WinCE+ARM開發(fā)及關鍵技術上

視頻嵌入式 ARM WinCE | 2009-10-22

開放應用NGN的時代

liujt_ic | 2003-05-08

宏基董事長施振榮稱要控制中國大陸IT制造業(yè)

liujt_ic | 2003-05-08

英偉達 vs AMD：戰(zhàn)場已移至 1000 美元區(qū)間

智能計算英偉達 AMD | 2024-01-03

拿下滬穗兩大城市準單向收費將攻克北京

liujt_ic | 2003-05-08

如何快速而經(jīng)濟高效地將藍牙 5．3 添加至邊緣物聯(lián)網(wǎng)設計

物聯(lián)網(wǎng)與傳感器 DigiKey 藍牙5.3 物聯(lián)網(wǎng) | 2024-01-03

具有線性化的輸入旁路電路圖(XTR112/114)

設計方案具有線性化輸入旁路電路圖 XTR112 | 2009-08-05

2023年新能源車企銷量匯總：僅4家完成年度目標！

汽車電子新能源汽車銷量 | 2024-01-03

Active Object技術講解上

視頻 Symbian 操作系統(tǒng) | 2009-10-22

Rivian 使用 MATLAB 和 MATLAB Parallel Server 擴展整車仿真

測試測量 MathWorks Rivian MATLAB 整車仿真 | 2024-01-03

XTR112/114隔離式發(fā)送／接收環(huán)電路圖

設計方案 XTR112 隔離發(fā)送接收電路圖 | 2009-08-05

XTR112/114熱電偶環(huán)路測量電路圖

設計方案 XTR112 熱電偶環(huán)路測量電路圖 | 2009-08-05

PCF8563 實時時鐘、日歷芯片選型指南

資源下載 CMOS 實時時鐘日歷芯片 PCF8563 選型 | 2007-02-16

半導體創(chuàng)新如何塑造邊緣 AI 的未來

智能計算 TI AI | 2024-01-03

IPv6帶來全新的服務體驗

liujt_ic | 2003-05-08

PDIUSBD12 DMA 模式應用指南

資源下載 DMA 模式 PDIUSBD12 應用 | 2007-02-16

超高壓MOS在變頻器上的應用

電源與新能源 RS瑞森半導體 MOS 變頻器 | 2024-01-03

Active Object技術講解下

視頻 Symbian 操作系統(tǒng) | 2009-10-22

E頻段無線射頻鏈路為5G網(wǎng)絡提供高容量回程解決方案-第一部分

手機與無線通信 ADI 5G | 2024-01-03

火箭模擬發(fā)射器電路圖

設計方案火箭模擬發(fā)射器電路圖 | 2009-08-05

XTR112、RCV420組成的發(fā)送／接收環(huán)電路圖

設計方案 XTR112 RCV420 組成發(fā)送接收電路圖 | 2009-08-05

必看！IGBT基礎知識匯總！

元件/連接器 IGBT 晶體管基礎知識 | 2024-01-03

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();