MCU+NPU,Arm引領(lǐng)物聯(lián)網(wǎng)全面智能化時代
人工智能作為過去兩年以及未來幾年注定爆火熱點(diǎn)應(yīng)用,始終缺乏足夠的落地方案確保盈利能力,即使目前最火爆的生成式AI(AIGC)依然屬于燒錢階段。因此,支撐AI未來商業(yè)價值的,并不只是人們看到的大模型和AIGC,還需要更多終端節(jié)點(diǎn)對人工智能應(yīng)用的支持。
算力成本是人工智能應(yīng)用中不可回避的話題,畢竟從算力開銷上來說,單純把所有計算都放在云端不僅帶來的是龐大的算力構(gòu)建費(fèi)用,更是因?yàn)榇罅繑?shù)據(jù)的反復(fù)傳輸而帶來能效方面的開銷。因此,將算力資源合理的分配到云端和邊緣側(cè)可以更好地發(fā)揮不同節(jié)點(diǎn)的處理資源,將復(fù)雜AI推理和訓(xùn)練放在云端而將邊緣側(cè)的簡單數(shù)據(jù)處理和反饋交給邊緣端算力處理,這種部署能夠有效提升AI應(yīng)用的價值。隨著邊緣側(cè)處理單元的性能提升,物聯(lián)網(wǎng)終端節(jié)點(diǎn)的計算能力已經(jīng)逐漸開始能夠滿足一定程度的AI處理需求,同時處理器+AI專用處理器的異構(gòu)結(jié)構(gòu)在具有基礎(chǔ)AI需求的節(jié)點(diǎn)部署也沒有技術(shù)難度。因此相比于CPU+GPU的云端標(biāo)準(zhǔn)AI算力架構(gòu),在邊緣節(jié)點(diǎn)的MPU+NPU甚至MCU+NPU的架構(gòu)更符合廣泛人工智能的需求,并且是人工智能短期內(nèi)最可能實(shí)現(xiàn)盈利的關(guān)鍵點(diǎn)(甚至已經(jīng)在盈利)。
在物聯(lián)網(wǎng)的邊緣節(jié)點(diǎn)中,MCU是目前最普遍的處理單元,雖然從內(nèi)核架構(gòu)上MCU已經(jīng)逐步開始增加NN和ML相關(guān)的處理能力,但從計算效率來說,傳統(tǒng)的MCU架構(gòu)并不適合高效地進(jìn)行AI相關(guān)的計算,遠(yuǎn)不如NPU這類處理器來得經(jīng)濟(jì)高效。作為在通用MCU內(nèi)核方面已經(jīng)占據(jù)領(lǐng)導(dǎo)地位的Arm,除了為基于Armv8架構(gòu)的內(nèi)核增加了ML支持單元之外,也開始面對物聯(lián)網(wǎng)節(jié)點(diǎn)對更強(qiáng)大AI處理能力的需求推出解決方案。Arm 全新的Corstone-320 物聯(lián)網(wǎng)參考設(shè)計平臺集成了 Arm 最高性能的 Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的 Ethos-U85 NPU,為語音、音頻和視覺等廣泛的邊緣 AI 應(yīng)用提供所需的性能,例如實(shí)時圖像分類和目標(biāo)識別,或在智能音箱上啟用具有自然語言翻譯功能的語音助手。該參考設(shè)計平臺涵蓋了軟件、工具和支持,其中包括 Arm 虛擬硬件。該平臺的軟硬件結(jié)合特性將使開發(fā)者能夠在物理芯片就緒前便啟動軟件開發(fā)工作,從而加速推進(jìn)產(chǎn)品進(jìn)程,為日益復(fù)雜的邊緣 AI 設(shè)備縮短上市時間。除了降低復(fù)雜性和加快產(chǎn)品上市進(jìn)程,Corstone-320 還帶來了以下優(yōu)勢:
· 提高性能:通過提升計算吞吐量,為各種物聯(lián)網(wǎng)設(shè)備和用例提供合適的算力。
· 改善內(nèi)存帶寬:對數(shù)據(jù)寬度和內(nèi)存通道等內(nèi)存帶寬方面進(jìn)行改善,從而為像素流提供全系統(tǒng)范圍的互連帶寬。
· 提高能效:提高可持續(xù)性,以及延長電池續(xù)航時間。
· 一系列電源模式:包括睡眠模式、待機(jī)模式和電源島。
· 降低設(shè)計成本,并縮短工程時間:通過“開箱即用的” Corstone-320,設(shè)計人員和工程師能夠立即啟動 SoC 設(shè)計。
· 更多的安全功能:包括啟動時和運(yùn)行時的安全機(jī)制,都集成至系統(tǒng)中。
· 可觀察性:Corstone-320 中內(nèi)置了所有組件的全面調(diào)試和跟蹤功能。
· 改進(jìn)的靈活性:Corstone-320 設(shè)計針對不同的細(xì)分市場、設(shè)備和用例中進(jìn)行定制。
· 一系列的軟件支持:包括大量開源軟件等一系列的軟件支持,可降低總體成本和復(fù)雜性。
從應(yīng)用角度,邊緣側(cè)需要越來越多的語音、圖像甚至視頻級處理能力,而邊緣側(cè)對功耗、尺寸和計算效率的要求遠(yuǎn)比云端要更為嚴(yán)格。處理能力的提升需要以不增加或者盡可能少增加功耗為基礎(chǔ),這無疑需要對每個任務(wù)的處理效率都提出的更高的需求,因此,基于多核異構(gòu)的解決方案就是最合理的選擇。比如在硬件方面,Arm為物聯(lián)網(wǎng)參考設(shè)計平臺 Corstone-320 集成了以下前沿的IP:Arm Cortex-M85,Arm Mali-C55 ISP,全新的Arm Ethos-U85 NPU和Arm CoreLink DMA-350。其中Arm 最強(qiáng)MCU內(nèi)核Cortex-M85 搭載 Arm Helium 技術(shù),是目前MCU視覺應(yīng)用的理想之選,能以高能效和高性能提供所需要的安全性和靈活性。Mali-C55絕佳地集成了高分辨率圖像處理能力(可支持 4800 萬像素的圖像分辨率)、能效、可配置性及無與倫比的圖像質(zhì)量,適用于廣泛的物聯(lián)網(wǎng)視覺應(yīng)用。同時,高度可配置的直接內(nèi)存訪問控制器 DMA-350,可實(shí)現(xiàn)高效的數(shù)據(jù)移動,從而提高系統(tǒng)性能和能效,并支持 Arm TrustZone技術(shù)。
參考設(shè)計平臺是Arm在進(jìn)入Armv8架構(gòu)和Armv9架構(gòu)時代為了更好提升系統(tǒng)級方案推出的創(chuàng)新解決方案,前有針對移動端的全面計算解決方案(TCS)和針對基礎(chǔ)設(shè)施的Neoverse 這兩個面向MPU為主的平臺,如今Corstone-320 則作為面向物聯(lián)網(wǎng)應(yīng)用的全新參考設(shè)計平臺,通過其預(yù)先集成、預(yù)先驗(yàn)證的參考設(shè)計模版,將幫助Arm的合作伙伴減少邊緣智能芯片開發(fā)的成本和時間。為了加速邊緣側(cè)AI的部署,同時為更廣泛、更高性能的設(shè)備提供高能效的邊緣推理能力,Arm發(fā)布了迄今性能最高且能效最佳的 Ethos NPU—Ethos-U85。
2017年問世的Transformer 架構(gòu)徹底改變了生成式AI,并成為許多新型神經(jīng)網(wǎng)絡(luò)的首選架構(gòu)?;赥ransformer架構(gòu)的模型可利用注意力機(jī)制處理序列數(shù)據(jù),并在機(jī)器翻譯、自然語言理解、語音識別、分割和圖像字幕生成等多項(xiàng) AI 任務(wù)中實(shí)現(xiàn)優(yōu)異的效果。這些模型可被調(diào)整和壓縮,在不過多影響準(zhǔn)確度的情況下,能高效運(yùn)行于邊緣設(shè)備上,并在許多邊緣側(cè)和端側(cè)用例中發(fā)揮領(lǐng)先的優(yōu)勢。這種技術(shù)趨勢極大地催生了NPU在邊緣側(cè)應(yīng)用的技術(shù)需求。
相比于之前發(fā)布的U55和U65, Ethos-U85性能提升四倍,能效提高 20%,同時,其 MAC 單元可從 128 個擴(kuò)展到 2048 個(在 1GHz 時,算力實(shí)現(xiàn) 4 TOPs)。Ethos-U85 NPU 支持TensorFlow Lite和PyTorch等AI框架,更重要的是Ethos-U85 支持 Transformer 架構(gòu)和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 以實(shí)現(xiàn) AI 推理。Transformer 架構(gòu)將推動新的應(yīng)用,特別是面向視覺和生成式 AI 用例中,對于理解視頻、填充圖像的缺失部分或分析來自多個攝像頭的數(shù)據(jù)以進(jìn)行圖像分類和目標(biāo)檢測等任務(wù)非常有效。
除了 Ethos-U55 和 Ethos-U65 目前支持的算子,通過支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等運(yùn)算,Ethos-U85 涵蓋了對 Transformer 模型和 DeeplabV3 語義分割網(wǎng)絡(luò)的原生硬件支持。Ethos-U85 也支持元素級算子鏈化。通過鏈化將元素級運(yùn)算與先前的運(yùn)算相結(jié)合,使 SRAM 不必先寫入再讀取中間張量。由此可憑借 NPU 和內(nèi)存之間數(shù)據(jù)傳輸量的減少,提高 NPU 的效率。相比于 Ethos-U65,鏈化是 Ethos-U85 在效率提升上的新功能之一,其余還包括快速的權(quán)重編碼器、優(yōu)化的 MAC 陣列能效,以及提升的元素效率。
除了包括最新Ethos-U85 NPU在內(nèi)的硬件支持之外,Corstone-320 同樣擁有一系列的軟件支持。Corstone-320軟件套件包括固件、所有 IP 的驅(qū)動程序、中間件、實(shí)時操作系統(tǒng) (RTOS) 和云集成、ML 模型和參考應(yīng)用程序。這意味著軟件開發(fā)者能夠輕松選擇其特定細(xì)分市場所需的組件,并使用所選開發(fā)工具為該設(shè)備構(gòu)建物聯(lián)網(wǎng)堆棧。開源應(yīng)用程序演示了關(guān)鍵詞識別、語音識別和目標(biāo)識別用例。與此同時,Corstone-320 中包含的原型平臺能使軟件開發(fā)與 SoC 設(shè)計并行啟動。軟件中還包含了固定虛擬平臺 (FVP),用于對構(gòu)成完整 FPGA 系統(tǒng)的外設(shè)進(jìn)行建模。通過使用 FVP,軟件開發(fā)者無需硬件即可開始開發(fā)應(yīng)用,從而加快開發(fā)速度。
Arm 通過軟硬件解決方案,生態(tài)系統(tǒng)支持等,不斷促進(jìn)邊緣 AI 應(yīng)用的進(jìn)展,以加速邊緣 AI 的創(chuàng)新步伐。
評論