5G時(shí)代到來(lái),Arm又有什么大招?
在過(guò)去的十年中,我們記錄了ARM處理器在數(shù)據(jù)中心(特別是通用服務(wù)器)的崛起。這是充滿(mǎn)希望和失望的十年。但是數(shù)據(jù)中心正在發(fā)生變化,計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)必然被推到網(wǎng)絡(luò)的邊緣,更接近終端用戶(hù),因?yàn)樵S多現(xiàn)代應(yīng)用的延遲要求較低,而且集中移動(dòng)和存儲(chǔ)數(shù)據(jù)的巨大成本可能只是臨時(shí)使用。因此,ARM今天的機(jī)會(huì)或許比10年前開(kāi)始這一征程時(shí)要好。
本文引用地址:http://www.ex-cimer.com/article/201903/398482.htmARM Holdings是軟銀集團(tuán)的一個(gè)部門(mén),擁有ARM架構(gòu)并將其授權(quán)給無(wú)數(shù)芯片開(kāi)發(fā)商用于各種設(shè)備,ARM Holdings已經(jīng)在智能手機(jī)領(lǐng)域占據(jù)主導(dǎo)地位,在平板電腦領(lǐng)域占有相當(dāng)大的份額。在數(shù)據(jù)中心和邊緣的各種輔助計(jì)算設(shè)備(如4G蜂窩網(wǎng)絡(luò))領(lǐng)域,ARM Holdings在所有芯片制造商中(包括英特爾的X86)占據(jù)最大份額。
隨著5G網(wǎng)絡(luò)的出現(xiàn),數(shù)據(jù)中心將變得更加前沿,因?yàn)?a class="contentlabel" href="http://www.ex-cimer.com/news/listbylabel/label/5G">5G最終將提供只有光纖有線(xiàn)網(wǎng)絡(luò)才能提供的帶寬和延遲。但在短期內(nèi),5G帶寬的增長(zhǎng)仍將相當(dāng)可觀(guān),峰值下載速度可能達(dá)到20 GB/秒,而4G的峰值速度為1 GB/秒;理論上,上載速度通常是下載速度的一半。5G網(wǎng)絡(luò)的實(shí)際性能將取決于蜂窩無(wú)線(xiàn)網(wǎng)絡(luò)中使用頻譜的哪一部分,以及蜂窩設(shè)備所在的地形(包括建筑物)。重點(diǎn)是,網(wǎng)絡(luò)性能提高20倍,延遲降低60到120倍,這將極大地改變世界使用蜂窩網(wǎng)絡(luò)的方式。
毫無(wú)疑問(wèn),蜂窩運(yùn)營(yíng)商和為這些設(shè)備創(chuàng)建應(yīng)用的用戶(hù)將使用這些帶寬,他們將需要在5G基站和各種邊緣位置進(jìn)行足夠的網(wǎng)絡(luò)化、存儲(chǔ)和計(jì)算,從而實(shí)現(xiàn)傳統(tǒng)有線(xiàn)電信接入點(diǎn)的前端(最終網(wǎng)絡(luò)必須在某個(gè)地方通過(guò)線(xiàn)路進(jìn)行通信)或提供緩存服務(wù)來(lái)加速應(yīng)用程序。如果網(wǎng)絡(luò)本身是快速的,那么緩存就變得不那么必要了,網(wǎng)絡(luò)不僅僅是傳遞數(shù)據(jù),而是能夠進(jìn)行計(jì)算和操作。
ARM知道這波浪潮即將到來(lái),于是在去年年底發(fā)布了它的Neoverse架構(gòu),以更好地滿(mǎn)足數(shù)據(jù)中心的需求和計(jì)算方面的優(yōu)勢(shì)。ARM的授權(quán)商一直難以在數(shù)據(jù)中心處理器領(lǐng)域取得不錯(cuò)的銷(xiāo)售業(yè)績(jī)。Marvell的ThunderX2絕對(duì)是可以基于概念證明的,Ampere(它從AppliedMicro購(gòu)買(mǎi)了X-Gene芯片)有希望,亞馬遜似乎對(duì)它自己開(kāi)發(fā)的“Graviton”ARM服務(wù)器芯片非常認(rèn)真,即使AMD、高通和Broadcom退出了,Calxeda還沒(méi)有真正開(kāi)始,三星也停止了。然而,在邊緣,ARM集體面臨來(lái)自英特爾和AMD的激烈競(jìng)爭(zhēng),它們都擁有各自的Xeon和Epyc平臺(tái),但ARM是老牌廠(chǎng)商,它們是后起新貴。
通過(guò)這種方式,“Helios”Neoverse E1處理器瞄準(zhǔn)了邊緣,這是本周在巴塞羅那舉行的世界移動(dòng)大會(huì)(現(xiàn)在被稱(chēng)為MWC,這很愚蠢)的一個(gè)熱門(mén)話(huà)題,對(duì)于ARM在服務(wù)器計(jì)算方面的愿景而言,這可能比一周前公布的“Ares”Neoverse N1處理器更重要。非常清楚的是,N1處理器將會(huì)有邊緣變體,如果客戶(hù)想要它們,可能會(huì)有E1處理器的數(shù)據(jù)中心版本,這實(shí)際上取決于ARM的合作伙伴。Helios E1芯片非常有趣,我們認(rèn)為它將會(huì)出現(xiàn)在內(nèi)核數(shù)據(jù)中心和邊緣設(shè)備中。重要的是,ARM已經(jīng)推出了一款低功耗設(shè)備,其目標(biāo)是更全面的計(jì)算——也就是E1——以及一個(gè)更強(qiáng)大、更傳統(tǒng)的CPU,可以在其家庭數(shù)據(jù)中心領(lǐng)域與Xeon競(jìng)爭(zhēng),ARM的芯片合作伙伴可以向上或向下擴(kuò)展每個(gè)設(shè)計(jì),以填補(bǔ)細(xì)分市場(chǎng)的空白。他們并不需要做很多工作,而過(guò)去并非如此,希望這將幫助ARM的合作伙伴更及時(shí)地將產(chǎn)品推向市場(chǎng)。英特爾10納米的制造停滯不會(huì)永遠(yuǎn)持續(xù)下去。
增強(qiáng)競(jìng)爭(zhēng)優(yōu)勢(shì)
從概念上講,Neoverse E1芯片與N1芯片的關(guān)系就像英特爾的Atom芯片與Xeon芯片的關(guān)系一樣。當(dāng)然,這個(gè)類(lèi)比并不完美。Atom芯片具有超線(xiàn)程,也就是英特爾的同步多線(xiàn)程實(shí)現(xiàn),即SMT,它虛擬化了芯片指令流水線(xiàn),使其在操作系統(tǒng)中看起來(lái)像兩個(gè)線(xiàn)程,而不是一個(gè)物理線(xiàn)程。(其他供應(yīng)商可以做四路甚至八路SMT,但英特爾一直選擇雙向SMT。)Atom芯片有順序執(zhí)行,這犧牲了20年前在RISC/Unix平臺(tái)上首次出現(xiàn)的無(wú)序執(zhí)行所能獲得的一些性能,這是Xeon系列的一部分,也是數(shù)據(jù)中心中幾乎所有其他處理器的一部分。
Neoverse N1和E1處理器都支持其流水線(xiàn)上的無(wú)序執(zhí)行,但ARM首次在其ARMv8架構(gòu)上用Helios E1芯片實(shí)現(xiàn)了SMT。直到最近,ARMv8體系結(jié)構(gòu)的被授權(quán)方才將無(wú)序執(zhí)行和SMT添加到他們創(chuàng)建的內(nèi)核中,但是現(xiàn)在ARM正在做這項(xiàng)繁重的工作。Cortex-A57芯片針對(duì)的是平板電腦和具有適度計(jì)算需求的設(shè)備,具有亂序執(zhí)行,后續(xù)的Cortex-A73和Cortex-A75處理器也是如此。但是這些都不像Helios E1那樣有SMT。
這種SMT以及ARM在單個(gè)芯片上創(chuàng)建的將內(nèi)核結(jié)合在一起的網(wǎng)狀互連,將是提高邊緣設(shè)備性能的重要因素,例如5G基站中的25瓦至35瓦處理器,位于數(shù)據(jù)中心的其他類(lèi)型的協(xié)處理器和加速器,如SmartNIC,以及數(shù)據(jù)傳輸設(shè)備,如內(nèi)核路由器,它們的計(jì)算中有多個(gè)100 Gb/秒的端口。
ARM基礎(chǔ)設(shè)施業(yè)務(wù)營(yíng)銷(xiāo)副總裁Mohamed Awad表示,這些都是Helios E1處理器目標(biāo)市場(chǎng)的一部分。他最近在奧斯汀舉行的ARM技術(shù)日(ARM Tech Day)上談到了潛在的使用案例?!?/p>
“E1將支持bot舊式軟件和開(kāi)源軟件,因此它可以快速插入并執(zhí)行OPNFV和ONAP,并支持DPDK?!盇wad解釋說(shuō)。他使用開(kāi)放式網(wǎng)絡(luò)功能虛擬化平臺(tái)(電信公司和服務(wù)提供商創(chuàng)建并使用的參考平臺(tái))和開(kāi)放式網(wǎng)絡(luò)自動(dòng)化平臺(tái)的字母組合,顧名思義,它是一個(gè)用于運(yùn)行的編排和自動(dòng)化框架,在其中運(yùn)行網(wǎng)絡(luò)功能,這些功能過(guò)去被硬化到無(wú)數(shù)供應(yīng)商的非常昂貴的設(shè)備中。DPDK是Data Plane Development Kit的縮寫(xiě),Data Plane Development Kit是英特爾創(chuàng)建的數(shù)據(jù)包處理引擎,已開(kāi)源并交給Linux Foundation管理,現(xiàn)在支持X86、Power和ARM架構(gòu)?!叭绻憧紤]一下從邊緣到內(nèi)核的基礎(chǔ)設(shè)施,就會(huì)看到有很多設(shè)備和軟件都與之相關(guān),我們推出的Neoverse E1平臺(tái)可以支持該舊式軟件,但可以過(guò)渡到此開(kāi)源軟件?!?/p>
Helios芯片的可擴(kuò)展性將取決于有多少E1內(nèi)核被網(wǎng)格化,以及Helios內(nèi)核相對(duì)于“Cosmos”系列的前身Cortex-A53的固有性能,后者廣泛用于各種網(wǎng)絡(luò)、安全、存儲(chǔ)適配器,以及家電。如果你把邊緣和數(shù)據(jù)中心使用的所有處理器(包括4G基站)加上數(shù)據(jù)中心的服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò),再加上分布在數(shù)據(jù)中心和邊緣的所有安全和網(wǎng)絡(luò)設(shè)備,那么在2011年,ARM占有大約5%的份額。而2018年,當(dāng)3億個(gè)芯片出貨到IT的這個(gè)領(lǐng)域時(shí),ARM占有27%的份額,而且這一份額仍在增長(zhǎng)。(因此,我們假設(shè)這些是收入份額,但考慮到有許多不同類(lèi)別的機(jī)器,看看收入份額會(huì)很有趣??傊?,錢(qián)才是最重要的。)這些芯片不包括WiFi路由器或任何距離家庭或辦公室最后一英里的設(shè)備——這是計(jì)算和存儲(chǔ)的優(yōu)勢(shì)。并且,也許最重要的是,這使得ARM架構(gòu)在所有芯片制造商中處于領(lǐng)先地位,比英特爾還大,但我們不知道有多少,因?yàn)锳RM沒(méi)有共享這些數(shù)據(jù)。
你可能想知道為什么ARM不能只用一個(gè)降速的N1芯片來(lái)完成所有這些邊緣工作。從某種意義上說(shuō),確實(shí)如此,但它需要更多的架構(gòu)調(diào)整,而不僅僅是減少內(nèi)核和緩存,從而減少插槽和功率。ARM架構(gòu)和技術(shù)團(tuán)隊(duì)的系統(tǒng)架構(gòu)師和杰出工程師Rob Dimond表示,用于處理數(shù)據(jù)傳輸工作負(fù)載的計(jì)算需要能夠在未來(lái)十年內(nèi)處理10倍的增長(zhǎng)系數(shù)。如果你計(jì)算一下,這意味著吞吐量類(lèi)型的處理器每年大約增長(zhǎng)60%,這意味著那些面向線(xiàn)程密集的軟件和相對(duì)低功耗的處理器,而不是面向具有更快時(shí)鐘和大量緩存的大型內(nèi)核,這兩種處理器都會(huì)產(chǎn)生大量熱量。
正如我們?nèi)ツ昵锾旖忉尩哪菢?,Neoverse N1系列的承諾是每年在套接字級(jí)別上提高30%的性能。沒(méi)錯(cuò),ARM正在證明,與早期的Cosmos Cortex-A73處理器相比,在64核Ares芯片上運(yùn)行的各種工作負(fù)載可以在1.7X和2.5X之間進(jìn)行,因此它的增長(zhǎng)率遠(yuǎn)遠(yuǎn)超過(guò)了60%。與此類(lèi)似,Helios芯片的內(nèi)核運(yùn)行速度比Cortex-A53參考架構(gòu)快2.1倍,整個(gè)速度比后者高出2.7倍,但這一最初的提升可能并非每一代都能持續(xù)下去。尤其是如果ARM試圖堅(jiān)持為E1設(shè)計(jì)提供年度升級(jí)節(jié)奏,正如它對(duì)N1設(shè)計(jì)所承諾的那樣。
深入研究HELIOS E1
雖然Ares N1處理器將支持32位ARMv7和64位ARMv8指令,但為了節(jié)省Helios E1處理器的功耗和芯片面積并為SMT騰出空間,32位處理和內(nèi)存尋址能力被放棄。以下是ARM為E1開(kāi)發(fā)的SMT模型的細(xì)節(jié):
隨著時(shí)間的推移,ARM將SMT增加一倍到4個(gè)線(xiàn)程,然后再增加到8個(gè)線(xiàn)程,以達(dá)到每個(gè)套接字60%的性能提升目標(biāo),這并不是沒(méi)有道理的。SMT8在銷(xiāo)售Sun Microsystems的T系列芯片時(shí)確實(shí)發(fā)揮了作用,對(duì)于IBM的Power8、Power9和Power10處理器來(lái)說(shuō),SMT8仍然非常有用,可以提高線(xiàn)程之類(lèi)工作負(fù)載的吞吐量。同樣,在以后的幾年里,最終看到SMT出現(xiàn)在Neoverse N2或N3或N4處理器中也就不足為奇了。
順便說(shuō)一句,E1芯片上的SMT可以通過(guò)軟件切換來(lái)打開(kāi)和關(guān)閉,因此對(duì)于那些在每個(gè)內(nèi)核單個(gè)線(xiàn)程以更高的時(shí)鐘速度運(yùn)行時(shí)可以做得更好的工作負(fù)載而言,可以切換模式。
整個(gè)E1設(shè)計(jì)側(cè)重于平衡套接字中的吞吐量和內(nèi)核中的原始計(jì)算,并最大限度地提高邊緣工作負(fù)載、數(shù)據(jù)中心數(shù)據(jù)平面和控制平面,以及具有網(wǎng)絡(luò)、存儲(chǔ)和安全功能的服務(wù)器加速器的每瓦吞吐量。
E1內(nèi)核有32 KB或64 KB的L1緩存(帶奇偶校驗(yàn))和32 KB到64 KB的L1數(shù)據(jù)緩存(其中有ECC擦除)。每個(gè)內(nèi)核還可以擁有64 KB到256 KB的L2緩存,前端是L1緩存,也有ECC擦除。內(nèi)核還可以包含加密引擎和NEON AdvSIMD浮點(diǎn)單元,如下所示:
Helios的E1集群上最多可以有八個(gè)內(nèi)核,繞內(nèi)核的電路具有異步橋接,可連接高達(dá)4 MB的L3高速緩存,以及用于外圍設(shè)備的各種總線(xiàn)接口,包括上述用于固定功能加速器的接口。你可以在E1芯片上有多個(gè)集群,cookie將它們切割到網(wǎng)格互連上。據(jù)推測(cè),客戶(hù)可以抓取內(nèi)核并在E1內(nèi)核之間進(jìn)行網(wǎng)狀互連,就像N1設(shè)計(jì)中所做的那樣,而不是對(duì)它們進(jìn)行集群,或者將集群拆分成chiplet,并使用CCIX端口將chiplet連接在一起,N1芯片也會(huì)是這樣。(我們必須要看看ARM的合作伙伴如何利用所有這些好處。)
如果您想研究?jī)?nèi)核流水線(xiàn),并將其與Neoverse中的Ares N1芯片進(jìn)行比較和對(duì)比,請(qǐng)參見(jiàn)下面的框圖:
N1和E1有很多不同之處,最大的區(qū)別在于N1有一個(gè)固定的10級(jí)整數(shù)流水線(xiàn),而不是可以從11級(jí)擴(kuò)展到9級(jí)的可變的“手風(fēng)琴”流水線(xiàn)。你可以看到三個(gè)寬流水線(xiàn)和兩個(gè)SMT流,它們使用一對(duì)匹配的64位浮點(diǎn)單元實(shí)現(xiàn)兩個(gè)64位整數(shù)單元。
這對(duì)浮點(diǎn)數(shù)單位在E1上的數(shù)量是在N1上的一半??紤]到每個(gè)人都期望在邊緣進(jìn)行大量推理,因此,對(duì)于與機(jī)器學(xué)習(xí)推理相關(guān)的混合精度數(shù)學(xué),更精簡(jiǎn)的E1數(shù)學(xué)單元可能仍然有用。浮點(diǎn)數(shù)單元可以在每個(gè)周期中一起執(zhí)行8個(gè)FP16操作,或者4個(gè)FP32操作,或者16個(gè)INT8格式的“點(diǎn)積”指令。(最后一點(diǎn)就是推理最有可能發(fā)揮作用的地方。)如果你看看Helios E1芯片的原始整數(shù)性能,它是關(guān)閉線(xiàn)程時(shí)Cortex-A53的1.4倍,打開(kāi)SMT2時(shí)的1.8倍。使用浮點(diǎn)時(shí),在激活SMT2的情況下,Cortex-A53和2.4X之間的性能提升為2倍。
總而言之,臺(tái)積電在7nm制程中采用的裸片尺寸為0.46 mm2,2.5 GHz的頻率,功率為183毫瓦。ARM為被授權(quán)方提供的參考設(shè)計(jì)芯片上有一對(duì)八核集群,由CMN-600網(wǎng)格互連和掛在網(wǎng)格上的兩個(gè)DDR4內(nèi)存控制器連接。這些內(nèi)核的功耗預(yù)算低于4瓦,整個(gè)片上系統(tǒng)的功耗低于15瓦,SPECint_rate2006為153,可以25 Gb/秒的速度發(fā)送數(shù)據(jù),這就是目前超大規(guī)模數(shù)據(jù)中心服務(wù)器端口所做的工作。在一個(gè)小型5G基站部署中,一個(gè)E1集群用于控制平面,另一個(gè)用于數(shù)據(jù)平面,無(wú)線(xiàn)電和安全電路將被添加到其中。在該小型5G蜂窩基站上運(yùn)行OpenSSL和DPDK的E1參考平臺(tái),其性能將是基于Cortex-A53芯片的同類(lèi)平臺(tái)的2.7倍,每瓦功率性能提高2.4倍。
這些都是相當(dāng)不錯(cuò)的比較,但真正的考驗(yàn)是它們?nèi)绾味询B到真正的芯片,特別是嵌入式芯片,英特爾和AMD正在向市場(chǎng)推出嵌入式芯片,以處理相同的邊緣工作負(fù)載。到目前為止,我們還沒(méi)有看到這樣的比較基準(zhǔn)。
以下是另一個(gè)示例,說(shuō)明如何在軟件定義的網(wǎng)絡(luò)設(shè)備上使用在3×5網(wǎng)格上實(shí)施的E1和N1處理器組合,來(lái)創(chuàng)建在E1上運(yùn)行的高吞吐量數(shù)據(jù)平面,以及在N1上運(yùn)行的強(qiáng)大控制平面,從而能夠以100 Gb/秒的線(xiàn)速執(zhí)行數(shù)據(jù)包處理:
我們可以想象E1和N1芯片的各種用途和各種配置。和ARM團(tuán)隊(duì)一樣,現(xiàn)在的問(wèn)題是:ARM的哪些合作伙伴要做什么才能將基于這一創(chuàng)新技術(shù)的芯片推向市場(chǎng)?此外,他們會(huì)有多大的沖動(dòng)去小題大做呢?希望能有更多的合作伙伴,并少些麻煩。時(shí)間是很寶貴的。
評(píng)論