英特爾的Emerald Rapids Xeon SP處理器在性能上略有提升,成本略微降低
隨著每一代Intel Xeon SP服務器處理器的推出,我們不禁想到同樣的事情:如果這款芯片一年前或兩年前就發布了,對于Intel和客戶來說都會更好,而且肯定是計劃中的。
今天發布的新型“Emerald Rapids”處理器是Xeon SP系列的第五代,確實是Intel迄今為止推出的最優秀的服務器CPU,但它將面臨來自AMD的Epyc系列以及一些由超大規模計算和云服務提供商制造的本土Arm服務器CPU的激烈競爭。更不用說Arm服務器CPU新秀Ampere Computing。
過去幾年一直如此,Intel將在Emerald Rapids芯片上贏得供應份額,但這將發生在一個除了在人工智能系統上的熱衷支出之外,服務器市場已經衰退了兩三個季度的市場中,這是個不好的時機。但這不僅僅對Intel來說是不好的時機,正如《可汗的憤怒》中的斯波克先生所說的那樣,這也是“給鵝的調味品”,因為機會是平等的。AMD同樣遭受著服務器CPU衰退的打擊,所有下游服務器制造商也都在經歷這一點,再次提醒一下,除了人工智能服務器上的大型GPU引擎,其他地方似乎沒有給它們帶來太多利潤。但如果你仔細看,這使得Nvidia成為地球上商業史上最富有的公司之一。
不同之處在于,AMD在上周推出的“Antares” MI300系列中擁有可信的GPU加速器故事,而Intel對其“Ponte Vecchio” Max Series GPU并未透露太多信息,而是依靠其當前的Gaudi2和未來的Gaudi3人工智能加速器,這些加速器不是通用計算引擎,無法與Nvidia GPU和AMD GPU進行同等對抗。沒有傳統的高性能計算故事,沒有VDI故事(人們似乎并不太關心),沒有可視化故事,也沒有數據庫或分析加速故事,與Gaudi設備相關的故事。
因此,Intel等待在一個稱為Intel 7的10納米工藝的超精細變種上,對“Raptor Cove”核心和Emerald Rapids在今年1月發布的第四代Xeon SP“Sapphire Rapids”共享的“Eagle Stream”服務器平臺進行了一些非常出色的工程設計。最終,隨著Intel的晶圓廠縮小與臺灣積體電路制造公司的工藝和封裝差距,將會有更多的調味品為這只鵝提供。最終——因為在半導體業務中總會有一個最終——Intel在核心、工藝和封裝方面將與AMD和Nvidia在CPU和GPU領域達到平衡,我們將再次看到計算成本急劇下降。
我們期待著為您而做的這一切。
與此同時,不再拖延,讓我們談談Emerald Rapids系列,并在進行時牢記這個想法。當公司延長他們在領域中保留服務器的時間時,幾乎必然要求他們購買盡可能高性能的機器,以便在向其機群添加一些新設備時,能夠淘汰最多數量的老系統足跡。這樣,高端CPU能夠提供的核心、緩存和I/O,以及中端部分無法提供的東西,將使新設備在領域中的壽命更長。在過去的日子里,購買中端零件是一種常見的策略,但在這種情況下,這并不一定是一個好的做法。
對于Sapphire Rapids,Intel為其高端Extreme Core Count(XCC)變種組成了一個四芯片組成的插座,該變種為HPC客戶提供了HBM內存選項。這四個芯片組中,每個芯片組有16個核心,總共有64個核心,僅有60個核心用于良品率。還有一個Medium Core Count(MCC)的單片芯片變種,最多可擴展到32個核心,用于構建Sapphire Rapids SKU堆棧的52芯片中的下半部分。
通過超精細的10納米工藝,Intel可以制造更大的芯片組,對于相同尺寸的芯片組獲得更高的產量,并且對于更小的芯片組獲得更好的產量,因此它選擇使用三種不同的芯片封裝創建Emerald Rapids,正如您在上文中所見。
在最高端,有兩個芯片組,每個芯片組似乎有34或35個核心,排列成7×5個核心的網格(一個可能被彈出以騰出內存控制器空間),總共有60或70個核心,其中最多64個核心用于良品率。這是XCC變種,而這一次,對于HPC用戶,沒有HBM選項。抱歉。
Emerald Rapids的MCC芯片組對外暴露了最多32個核心,并且設計中可能有36個核心,同樣是為了提高產量。還有一種能效低的Low Core Count(EE LCC)變種,最多向插座引腳暴露20個核心,并且設計中可能實際有24個核心。
我們已經提出了但目前還不知道這三種變種的晶體管數。
Eagle Stream平臺的LGA-4677服務器插座在Sapphire Rapids一代中未被大量使用,但是通過頂級零件,Emerald Rapids填充得相當好:
核心數量有了適度的增加,從Sapphire Rapids芯片的最高配置的60個核心到Emerald Rapids的最高配置的64個核心,但是與Sapphire Rapids的XCC變種相比,Emerald Rapids的XCC變種芯片上的L3緩存最多可達320 MB,而Sapphire Rapids的XCC變種芯片的L3緩存最大只有112.5 MB。
Emerald Rapids插座上的UltraPath Interconnect(UPI)NUMA鏈接的速度提高到20 GT/秒,比Sapphire Rapids芯片上的UPI鏈接的16 GT/秒速度提高了25%。與Cascade Lake一樣,Emerald Rapids僅設計用于具有一個或兩個插槽的機器。因此,如果您需要一個四插槽或八插槽的服務器,您必須使用Sapphire Rapids,直到明年推出我們在九月份詳細介紹的第六代“Granite Rapids” Xeon SP。如果您可以等待Granite Rapids用于大型NUMA服務器,那將是更好的選擇。
Emerald Rapids芯片還支持CXL 1.1一致性內存協議,允許芯片上的PCI-Express端口支持Type 3 CXL內存,作為內置DDR5主內存的擴展。
至于Raptor Cove核心中每個核心的指令改進,Intel表示,從Sapphire Rapids到Emerald Rapids在High Performance Linpack、STREAM Triad、SPECrate2017_fp_base和SPECrate2017_int_base上的平均性能提升是1.21倍。這不是精確的每個核心時鐘標準化的度量。進行1.21倍性能躍升測試的是一對64核Emerald Rapids Xeon SP-8592+芯片,可能以全部核心Turbo速度的2.9 GHz運行,以及一對56核的Sapphire Rapids Xeon SP-8480+芯片。如果將這兩個處理器復雜的核心和時鐘相乘,僅這兩個因素就給您提供了10%的提升,也許更快的UPI 2.0鏈接也有些幫助。但假設它們沒有。那么,實際的IPC增益,在時鐘和核心數量相同的情況下標準化,可能更接近11%。這顯然只是一個猜測。
因此,不再拖延,以下是32款新的Emerald Rapids Xeon SP處理器:
在SKU堆棧的多樣性方面,Emerald Rapids系列有32個官方變種,比Sapphire Rapids系列的52個變種要窄且深得多。第一代的“Skylake” Xeon SP有51個變種,第二代的“Cascade Lake” Xeon SP有45個變種,再加上18個“Cascade Lake R”深度變種和為四插槽和八插槽服務器調整的“Cooper Lake”,這在某種程度上為Cascade Lake的63個正常變種增加了另外11個變種,總共達到74個變種。即使是命途多舛且長時間推遲的第三代“Ice Lake” Xeon SP也有38個變種。
總體而言,Emerald Rapids芯片在各種數據中心工作負載上提供了從1.13X到1.69X的性能提升,并提供了每瓦特平均1.34X更好的性能。在空閑功耗方面,熱特性尤為出色,空閑時的功耗約為100瓦特。(我們想說的是:服務器芯片為什么會空閑?給它找點事做吧。)
其中一些性能提升不僅僅來自核心,還來自更高的內存帶寬,因為Emerald Rapids CPU支持5.6 GHz的DDR5內存,而Sapphire Rapids使用的是4.8 GHz的DDR5內存,帶來了16.7%的內存帶寬增加。兩款芯片均有八個內存通道,因此通過向計算復雜添加更多內存通道并沒有增加帶寬,但是它們支持CXL內存擴展,通常稱為Type 3 CXL內存,提供了另外四個通道的CXL內存和額外的帶寬。您可以以兩種方式使用CXL內存:
目前尚不清楚Intel在測試Emerald Rapids系統時是否以及如何使用CXL內存來提升基準性能。我們將盡力澄清這一點。我們還將進行我們通常的體系結構深度剖析、與先前的Xeon和Xeon SP代系列的性價比比較以及與AMD Epyc和Arm服務器CPU的競爭分析。
評論