Arm技術(shù)日:為AI終端準(zhǔn)備了哪些新基石?
一切皆有可能,且盡在掌控之中,其基石就是新一代的高級(jí)計(jì)算。為此,Arm不久前在京舉辦了“技術(shù)媒體分享日”,介紹了Am終端CSS、CPU、 GPU及Kledi“軟件與軟件社區(qū)參與計(jì)劃”等,并回答了媒體問(wèn)題。
本文引用地址:http://www.ex-cimer.com/article/202407/460971.htm1 概覽:使用Al優(yōu)化的Arm CSS賦能終端
Arm終端事業(yè)部智能手機(jī)市場(chǎng)高級(jí)總監(jiān)Steve Raphael稱,Am是實(shí)現(xiàn)下一波計(jì)算性能需求的基石,不僅賦能設(shè)備端實(shí)現(xiàn)更高的AI性能,同時(shí)聚焦于降低能效,為當(dāng)今的計(jì)算平臺(tái)帶來(lái)了高效的性能。
最新的Arm計(jì)算平臺(tái)是Am終端計(jì)算子系統(tǒng)(Arm CSSforClient)。Arm首次在終端領(lǐng)域?yàn)锳rmCPU和GPU交付物理實(shí)現(xiàn)(如圖1)。這讓構(gòu)建基于Arm架構(gòu)的解決方案變得更加簡(jiǎn)單和可靠,同時(shí)實(shí)現(xiàn)新的性能點(diǎn)和計(jì)算能力,并助力加速產(chǎn)品上市進(jìn)程。
圖1 Arm終端CCS參考平臺(tái)
Arm力求提供更多價(jià)值,例如針對(duì)新的3納米工藝節(jié)點(diǎn)對(duì)整個(gè)堆棧進(jìn)行優(yōu)化。Am終端CSS將物理實(shí)現(xiàn)與Armv9的AI優(yōu)勢(shì)結(jié)合在一起。 Armv9架構(gòu)是2021年推出的,專為高性能和AI而設(shè)計(jì)的,并在過(guò)去幾年中提高了在矢量加速、機(jī)器學(xué)習(xí)(ML)等領(lǐng)域的計(jì)算能力;增強(qiáng)系統(tǒng)的安全性和穩(wěn)健性;更重要的是,增加了面向AI的功能。在去年Armv9.2取得成功的基礎(chǔ)上,現(xiàn)在正通過(guò)全新的Arm Cortex+ -x CPU和Arm Immortalis GPU來(lái)提供高性能,并以效率為核心,終端CSS能夠?yàn)楹献骰锇樯鷳B(tài)系統(tǒng)帶來(lái)所需的性能,并且加速其產(chǎn)品上市進(jìn)程。所有這些與持續(xù)的軟件投資相結(jié)合,為開發(fā)者構(gòu)建起-一個(gè)平臺(tái),幫助他們能夠在Arm平臺(tái)上打造更卓越、快速的AI體驗(yàn)。
2 終端CSS:面向高端終端設(shè)備
Amm終端事業(yè)部產(chǎn)品管理總監(jiān)Steve Hopper首先回年以來(lái),Arm通過(guò)全面計(jì)算解決方案(TCS)不斷突破移年以來(lái),Arm 通過(guò)全面計(jì)算解決方案(TCS)不斷突破移動(dòng)端計(jì)算的極限。第一代解決方案引入了全新的Amv9 CPU集群、性能強(qiáng)大的Arm Mali GPU以及一整套系統(tǒng)IP產(chǎn)品。2022年, Arm發(fā)布了第二代全面計(jì)算解決方案,帶來(lái)了Armv9 CPU集群,并推出了新的旗艦級(jí)GPU系列Arm Immortalis。在去年的全面計(jì)算解決方案中,Am推出了新一代Amv9.2 CPU集群和基于第五代GPU架構(gòu)的新GPU系列,持續(xù)推進(jìn)這一勢(shì)頭。 Arm的終端解決方案已連續(xù)三代實(shí)現(xiàn)兩位數(shù)的性能和效率提升。
圖2
在Specint和Geekbench等基準(zhǔn)測(cè)試中,計(jì)算性能每年提高超過(guò)15%。在各種GPU基準(zhǔn)測(cè)試和實(shí)際游戲內(nèi)容中,圖形性能提升超過(guò)20%。更重要的是,Arm持續(xù)實(shí)現(xiàn)了超過(guò)15%的同比效率提升。
今年,Am將其終端解決方案升級(jí)為Arm終端計(jì)算子系統(tǒng)(CSS),該計(jì)算子系統(tǒng)專為高端終端設(shè)備細(xì)分市場(chǎng)設(shè)計(jì),將在性能、效率和可擴(kuò)展性方面帶來(lái)突破性變化。
Am終端CSS囊括最新的Amv9.2 Cortex CPU集群和Arm Immortalis與Arm Mali GPU、CoreLink互連系統(tǒng)IP,以及知名代工廠采用3納米工藝生產(chǎn)就緒的CPU和GPU物理實(shí)現(xiàn)。該平臺(tái)為Am的合作伙伴提供了生產(chǎn)芯片的最快途徑。通過(guò)物理實(shí)現(xiàn),Arm的合作伙伴能夠利用前沿3納米工藝的各種優(yōu)勢(shì),同時(shí)實(shí)現(xiàn)高度靈活、可定制的芯片設(shè)計(jì)。
具體來(lái)看,Arm終端CSS采用最新Armv9.2 CPU集群,其中集成了Arm目前最高性能的Arm Cortex-X925 CPU、最高效的Cortex- -A725 CPU和更新后的Cortex-A520 CPU。這為AI和其他實(shí)際用例計(jì)算工作負(fù)載提供出色的性能和效率(圖3)。
圖3 Arm終端CSS的要素
最新發(fā)布的Armv9.2 CPU集群在性能上實(shí)現(xiàn)了大幅提升,這得益于Am從多維度著手進(jìn)行優(yōu)化。除了內(nèi)存延遲,以及最大化內(nèi)存帶寬和緩存大小,從多個(gè)關(guān)內(nèi)存延遲,以及最大化內(nèi)存帶寬和緩存大小,從多個(gè)關(guān)鍵因素入手,進(jìn)而實(shí)現(xiàn)CPU性能的提高。
而針對(duì)能效優(yōu)化方面, Steve Hopper強(qiáng)調(diào)了能效提升是一個(gè)多因素的結(jié)果,它涉及到工藝節(jié)點(diǎn)、核心設(shè)計(jì)、軟件優(yōu)化以及系統(tǒng)級(jí)緩存等多個(gè)方面。例如在系統(tǒng)級(jí)緩存方面,Arm終端CSS的參考實(shí)現(xiàn)中,系統(tǒng)級(jí)緩存已經(jīng)擴(kuò)展到了16MB,這有助于減少內(nèi)存流量,進(jìn)而可降低能耗。
2.1 CPU、GPU和NPU的關(guān)系
拍照和拍視頻可能是大眾最常使用的手機(jī)功能之一,而要想拍攝出具有逼真焦外成像(Bokeh)效果的照片和視頻,并不是一-項(xiàng)簡(jiǎn)單的工作負(fù)載。AI攝像頭的焦外成像管線由深度估計(jì)、分割、摳圖和混合等多個(gè)階段組成,以確保生成高質(zhì)量的影像。在Steve Hopper的技術(shù)分享中列舉了一個(gè)案例,該案例的管線中的AI可在NPU上運(yùn)行,但Arm已經(jīng)證明它同樣可以在CPU上運(yùn)行,并且它的運(yùn)行速度正越來(lái)越快。Am終端CSS的亮點(diǎn)之一正是計(jì)算攝影和AI攝像頭用例。與去年TCS23中的CPU相比,今年終端CSS中的Cortex- X925運(yùn)行焦外成像工作負(fù)載算法實(shí)現(xiàn)了24%的性能提升。
當(dāng)下智能手機(jī)市場(chǎng)中的成像解決方案非常復(fù)雜,在CPU、GPU和NPU上運(yùn)行的都有。市場(chǎng)不斷創(chuàng)新,涌現(xiàn)出新的算法、數(shù)據(jù)類型或運(yùn)算符。CPU 所具備的優(yōu)勢(shì)在于它的靈活性,以及可以滿足未來(lái)技術(shù)需求。例如,研發(fā)中的新技術(shù)可以首先在CPU上實(shí)現(xiàn),而NPU則需要特定的編碼,這增加了研發(fā)工作的難度。因此,新的算法通常首先出現(xiàn)在CPU或GPU上,最后當(dāng)硬件分離時(shí)才會(huì)遷移到NPU上。通過(guò)CPU與NPU緊密協(xié)作,將能共同推動(dòng)技術(shù)前沿的發(fā)展。
而針對(duì)端側(cè)AI推理的處理器協(xié)同工作,Steve Hopper表示,CPU因其易于訪問(wèn)并極為靈活,是一個(gè)較為理想的進(jìn)行AI推理的地方。對(duì)于卸載到NPU上進(jìn)行成本比較高的工作負(fù)載而言,CPU也是比較合適的運(yùn)行推理的地方。未來(lái),期待看到在高端設(shè)備中CPU、GPU和NPU三者相輔相成。但對(duì)于一些稍微低級(jí)別設(shè)備來(lái)說(shuō),廠商可能很難承擔(dān)NPU的費(fèi)用,CPU往往是運(yùn)行此類工作負(fù)載的理想目標(biāo)。
3 適用于Al及未來(lái)的高性能、高效率CPU集群
在過(guò)去的一年里,圍繞2023 Arm全面計(jì)算解決方案(TCS23)中的CPU集群,人們見到了許多令人矚目的產(chǎn)品和發(fā)布。這些產(chǎn)品共同引領(lǐng)了AI等新的高級(jí)用例的激增。如今,AI運(yùn)行于Arm平臺(tái)和Arm的CPU集群之,上。這些工作負(fù)載的計(jì)算密集度越來(lái)越高。因此Arm需要不斷發(fā)展技術(shù),以應(yīng)對(duì)這一挑戰(zhàn)。 正是在這一新技術(shù)和新用例的交匯之際,Arm推出了新的Armv9.2CPU集群(圖4)。
圖4 Armv9 CPU集群的代際更新及最新產(chǎn)品
Arm終端事業(yè)部高級(jí)產(chǎn)品經(jīng)理ManishPandey介紹了兩個(gè)全新的IP (旗艦CPU Arm Cortex-X系列和高效CPU Arm Cortex-A700系列的新產(chǎn)品),以及另外兩個(gè)經(jīng)過(guò)更新的IP一可用于3納米工藝的更新的Amm Cortex—A500系列CPU,以及具有新功能的更新的DSU。這些產(chǎn)品被集成至Arm迄今為止針對(duì)安卓系統(tǒng)速度最快的計(jì)算平臺(tái)一新的 Arm終端CSS。
Arm Cortex-X925是Arm迄今為止速度最快、性能最強(qiáng)的CPU,其單線程性能提升了36%,AI 性能提高了46%,是Arm Cortex- -X系列有史以來(lái)最大幅度的IPC同比提升。要實(shí)現(xiàn)如此優(yōu)異的性能,并非只涉及單個(gè)因素, 而是來(lái)自每時(shí)鐘周期指令數(shù)(IPC)、 頻率、編譯器、 操作系統(tǒng)(OS)、封裝等多個(gè)方面的投入。除了性能的提升以外,Arm也始終與其合作伙伴需求以及行業(yè)發(fā)展保持同頻,并致力于為其合作伙伴提供相關(guān)工具,幫助他們的產(chǎn)品實(shí)現(xiàn)逐年的性能提升,并且可以確保最終成品保持在他們的片上面積以及功耗預(yù)算之內(nèi)。
在終端設(shè)備市場(chǎng),隨著智能手機(jī)性能提升的同時(shí),散熱問(wèn)題也是眾所關(guān)注的焦點(diǎn)。在這一-方面, Arm持續(xù)投入,以確保其基礎(chǔ)IP在典型的功耗預(yù)算內(nèi)實(shí)現(xiàn)最大的性能表現(xiàn)。在Arm終端CSS中,Arm也以特定工藝節(jié)點(diǎn)的物理IP為目標(biāo),確保在這些工藝節(jié)點(diǎn)上獲得最佳性能, 同時(shí)達(dá)到最低的能耗和最小的發(fā)熱量。
3.1 Cortex-X925的命名含義
此次Arm針對(duì)Cortex- -X925改成了以三位數(shù)的命名方此次Arm針對(duì)Cortex- -X925改成了以三位數(shù)的命名方式。據(jù)了解,今年改名的原因主要在于,Arm革新了新一代CPU的設(shè)計(jì)理念,得益于新設(shè)計(jì)所實(shí)現(xiàn)的微架構(gòu)改進(jìn)和頻率提升,Cortex- -X925 是Cortex- -X推出以來(lái)取得最高IPC同比增幅的CPU,通過(guò)命名的調(diào)整,Arm用來(lái)彰顯其與前代產(chǎn)品的突出表現(xiàn)。此外,新推出的Immortalis- -G925 GPU在性能方面也實(shí)現(xiàn)了驚人的提升,通過(guò)將GPU和CPU的命名統(tǒng)一起來(lái),也能清楚表明這兩款產(chǎn)品作為旗艦高端IP的定位。Steve Raphael進(jìn)一步說(shuō)明, Arm Cortex- -X系列將持續(xù)定位為Arm和合作伙伴定制合作的專用高端CPU。而對(duì)于Cortex-. A700系列,Arm同樣看重,也將持續(xù)保持這一高效產(chǎn)品線。
3 新GPU定位:從手游到AI
作為人們?nèi)粘?shù)字生活中不可或缺的一部分,Arm GPU賦能了從當(dāng)今智能手機(jī)上的沉浸式游戲,到各類邊緣側(cè)人工智能(AI) 體驗(yàn)的方方面面。目前,Arm合作伙伴的GPU出貨量已超過(guò)100 億顆,而這一卓越成就歸功于Arm在業(yè)界領(lǐng)先的生態(tài)系統(tǒng)。這些GPU廣泛應(yīng)用于包括智能手機(jī)、平板電腦、智能電視、機(jī)頂盒、智能手表和XR可穿戴設(shè)備在內(nèi)的各類消費(fèi)電子設(shè)備。
去年此時(shí),Am推出了新的第五代GPU架構(gòu)及一系 列新的GPU,包括Arm Immortalis -G720 GPU。MediaTek的天璣9300系統(tǒng)級(jí)芯片(SoC)平臺(tái)便采用此GPU。之后,知名手機(jī)廠商vivo和OPPO的旗艦智能手機(jī)都先后采用了該芯片。
今年,Amm推出了第二代基于Am第五代GPU架構(gòu)構(gòu)建的GPU產(chǎn)品,成為Am終端計(jì)算子系統(tǒng)(CsS)的重Malir -G725 GPU和Amm Malir -G625 GPU,它們適用于從旗艦智能手機(jī)、高端手機(jī),到智能手表、入門級(jí)移動(dòng)設(shè)備等各類消費(fèi)電子設(shè)備,這些GPU產(chǎn)品的兩大設(shè)計(jì)重心:
● 作為手機(jī)游戲持續(xù)演進(jìn)的一部分,實(shí)現(xiàn)沉浸式視覺體驗(yàn);
● 在主流應(yīng)用中加速實(shí)現(xiàn)AI體驗(yàn)。
安謀科技(Arm China)市場(chǎng)總監(jiān)王剛提供了一組數(shù)據(jù):Immortalis——G925 GPU與Immortal—G720相比,性能提升了37%。這款產(chǎn)品還有多項(xiàng)技術(shù)改進(jìn),如片段預(yù)處理、光線追蹤和可擴(kuò)展性的提升等(圖5)。Arm還針對(duì)- -些關(guān)鍵AIML用例改進(jìn)了AI性能,并與生態(tài)系統(tǒng)緊密合作,更大限度地提高了Arm GPU的性能。此外,Mali-G725和Mali——G625這兩款產(chǎn)品可為各類不同級(jí)別的設(shè)備帶來(lái)出色的游戲體驗(yàn)。
圖5 Immortalis- G925整體性能提升
具體來(lái)看下Am GPU在AI性能方面的表現(xiàn),與前幾代產(chǎn)品一樣,Am持續(xù)提升GPU對(duì)AI/ML性能和效率的支持,并關(guān)注于AI等主要領(lǐng)域。在圖像處理(如分割或分類)方面,與其去年參考平臺(tái)中的Immortalis-G720相比,Am終端CSS參考平臺(tái)中的Immortalis -G925性能顯著提升了41%。在超級(jí)采樣任務(wù)中,使用神經(jīng)網(wǎng)絡(luò)放大圖像時(shí),性能提升了將近30%;在自然語(yǔ)言處理和語(yǔ)音轉(zhuǎn)文本方面,更是取得了50%性能提升。
王剛強(qiáng)調(diào)道,在衡量整個(gè)GPU的能效和性能時(shí),Am不局限于某一兩種基準(zhǔn)測(cè)試, 而是更注重實(shí)際用例的表現(xiàn),如游戲體驗(yàn)和普通用戶的UI使用體驗(yàn),這些實(shí)際應(yīng)用場(chǎng)景被視為基準(zhǔn)測(cè)試的重要補(bǔ)充。
4 通過(guò)軟件加速邊緣AI開發(fā)
在飛速發(fā)展的AI時(shí)代,Arm正支持全球數(shù)百萬(wàn)開發(fā)者,確保他們能夠獲得所需的性能、工具和軟件庫(kù), 從而順利地打造下一波令人驚嘆的AI體驗(yàn)。
為此,Arm推出了Arm Kleidi,這是一項(xiàng)廣 泛的“軟件和軟件社區(qū)參與計(jì)劃”,旨在加速AI發(fā)展。其中的第一個(gè)舉措是推出面向熱門AI框架的Arm Kleidi軟件庫(kù)。這使開發(fā)者可以直接取得Am CPU的出色AI功能,而如今全球從云端到邊緣側(cè)的大多數(shù)AI推理工作負(fù)載都在這些Amm CPU上運(yùn)行。開發(fā)者可以借助Arm超過(guò)多數(shù)據(jù)(SIMD)擴(kuò)展以支持機(jī)器學(xué)習(xí)(ML)工作負(fù)載,多數(shù)據(jù)(SIMD)擴(kuò)展以支持機(jī)器學(xué)習(xí)(ML)工作負(fù)載,到如今的Armv9架構(gòu)在Arm CPU上囊括了加速和保護(hù)高級(jí)生成式AI工作負(fù)載的功能,這些創(chuàng)新持續(xù)推動(dòng)AI能力和性能的提升。
Arm Kleidi提供了一個(gè)輕量級(jí)的軟件庫(kù),由于設(shè)計(jì)時(shí)已盡可能減少了對(duì)外部軟件環(huán)境的依賴性,使其能夠輕松整合到多種庫(kù)中。作為一個(gè)開源項(xiàng)目,Kleidi面向全行業(yè)開放,也將會(huì)不斷加入新特性、提升性能,并覆蓋更多運(yùn)算內(nèi)核。
Kleidi軟件庫(kù)包含面向AI工作負(fù)載的KleidiAI和面向運(yùn)行于Arm CPU上出色的計(jì)算機(jī)視覺工作負(fù)載的KleidiCV (圖6)。該軟件庫(kù)可以被直接嵌入到熱[門]的AI框架中,開發(fā)者無(wú)需進(jìn)行任何操作。如此一來(lái),開發(fā)者可以輕松地啟用Arm CPU的AI功能,從而快速構(gòu)建AI應(yīng)用,并在盡可能廣泛的設(shè)備上實(shí)現(xiàn)最出色性能。
圖6
總結(jié)來(lái)說(shuō),安謀科技(Arm China)開發(fā)者生態(tài)高級(jí)經(jīng)理李陳魯在講演中分享了的內(nèi)容涵蓋了:Kleidi 將能在使用Arm CPU的任何地方加速M(fèi)L;通過(guò)Arm的協(xié)作、內(nèi)容創(chuàng)作和工具方面的突破,進(jìn)一步推動(dòng)移動(dòng)圖ADPF的貢獻(xiàn)以及MTE在消費(fèi)電子設(shè)備中的落地來(lái)進(jìn)ADPF的貢獻(xiàn)以及MTE在消費(fèi)電子設(shè)備中的落地來(lái)進(jìn)一步增強(qiáng)安卓系統(tǒng);以及在打造Windows on Arm的原生生態(tài)系統(tǒng)方面取得了巨大進(jìn)展。
(本文來(lái)源于《EEPW》202407)
評(píng)論