內(nèi)置AI加速器，第五代英特爾至強打造更可靠性能和更出色能效

作者：時間：2024-02-28 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

第五代英特爾至強鉑金 8592+處理器憑借更優(yōu)化的SoC，三倍更大緩存和更快內(nèi)存，在運行諸多工作負載時具備與眾不同的優(yōu)勢，尤其是AI工作負載。

本文引用地址：http://www.ex-cimer.com/article/202402/455779.htm

優(yōu)點：

· 主流型號上擁有額外的八個核心

· 高端型號上的三級緩存容量增大了三倍

· 在AI工作負載中具備領(lǐng)先性能

· 在多線程和輕線程工作負載中均有出色表現(xiàn)

· 支持英特爾AMX、AVX-512、VNNI和BFloat 16

· 支持CXL Type 3存儲設(shè)備

英特爾數(shù)據(jù)中心產(chǎn)品始終具備與眾不同的優(yōu)勢。于去年12月最新推出的第五代英特爾至強可擴展處理器（以下簡稱第五代至強），在一眾基準(zhǔn)測試中，展現(xiàn)出強大性能提升。而且，這款最新產(chǎn)品的發(fā)布也展示出英特爾正在持續(xù)推動自身產(chǎn)品路線圖發(fā)展并踐行對客戶的承諾。

第五代至強的旗艦型號上比上一代增加了四個核心，為雙插槽服務(wù)器提供高達128核心和256線程。其三級緩存亦增加三倍，并為高性能型號配備了更快的DDR5-5600。結(jié)合其它有針對性的改進，包括對芯片架構(gòu)的更新設(shè)計，相較上一代產(chǎn)品，第五代至強可將AI推理性能提升42%，可在進行通用計算時將整體性能提升高達21%，并在一系列客戶工作負載中將每瓦性能提升高達36%。

第五代至強采用Intel 7制程工藝，是該節(jié)點的升級版本，并使用了增強版的Raptor Cove微架構(gòu)。第五代至強擁有許多創(chuàng)新和設(shè)計升級，遠超我們對新一代產(chǎn)品的期待。其中，英特爾從第四代至強芯片的復(fù)雜四芯粒設(shè)計，轉(zhuǎn)變?yōu)楦唵蔚碾pdie設(shè)計，總共包含610億個晶體管，新的die提供了更一致的延遲性。盡管經(jīng)過重新設(shè)計，第五代至強仍然與現(xiàn)有的四代至強Eagle Stream平臺的兼容性，從而縮短了驗證時間，使新的處理器能夠快速在市場上應(yīng)用。

第五代至強在整體核心數(shù)量上雖然并未創(chuàng)造業(yè)界紀(jì)錄，但英特爾的芯片仍能滿足大部分市場的需求，而且得益于其內(nèi)置加速器和在AI工作負載中的性能表現(xiàn)，英特爾能夠以兼具性能和能效的優(yōu)勢組合贏得更多客戶青睞。

第五代英特爾至強處理器規(guī)格和售價

第五代英特爾至強處理器系列包括32個SKU，主要分為六類，包括為云、網(wǎng)絡(luò)、存儲、長使用壽命、單路通用及液冷通用。該系列也被劃分為鉑金、金、銀和銅四個子等級。值得注意的是，第五代英特爾至強可擴展處理器最多支持雙路，沒有八插槽版本。但同時，英特爾還提供了不同級別的內(nèi)存支持，八通道速度從DDR5-4400擴展到DDR5-5600。

英特爾為每種類型的工作負載都設(shè)置了不同的SKU，第五代至強的32個SKU較之有52個SKU的上一代至強，在產(chǎn)品組合上已經(jīng)精簡了很多。

對于第五代至強，英特爾繼續(xù)推動加速技術(shù)的發(fā)展，這些技術(shù)可以直接購買或通過“即用即付”的模式進行購買。芯片上專門設(shè)計的幾大加速器區(qū)域旨在大幅提升多種工作的性能，例如壓縮、加密、數(shù)據(jù)移動和數(shù)據(jù)分析，而這些工作通常需要使用獨立的加速器才能展現(xiàn)出領(lǐng)先性能。每個芯片都可以啟用不同數(shù)量的加速器“設(shè)備”，但“+”型號的芯片默認情況下每種類型的加速器都至少啟用一個。

第五代至強標(biāo)準(zhǔn)型號的TDP從125W到350W不等，但液冷通用的版本則最高可達385W。

第五代至強鉑金8592+擁有64核心和128線程，比60個核心的第四代至強8490H多了四個核心。然而，8592+比第四代通用旗艦型號8480+多了八個核心。

正如其后綴“+”所表示的，8592+激活了內(nèi)置的每一個加速器。額外付費后，每種加速器都可以升級到四個加速處理單元，這通常由原始設(shè)備制造商提供，因此價格有所不同。

8592+的核心基頻為2.0 GHz，但可以在所有核心上提升到3.0 GHz，或在單個核心上提升到3.8 GHz。該芯片配備了320MB的L3緩存，大小是上一代產(chǎn)品的三倍多。英特爾提升三級緩存容量的決定將有利于運行多種工作負載，但也有個前提條件。正如我們將在下文中介紹的，第五代至強處理器可以采用三種不同的芯片配置，只有最高端的芯片配置（40個核心及以上）才具有三倍的緩存容量。與此同時，32核及更低的型號所使用的芯片通常與上一代處理器的緩存容量相同。

至強處理器現(xiàn)在在1DPC（每通道一個DIMM）模式下最高支持DDR5-5600，在2DC模式下支持DDR5-4800，比上一代的DDR5-4800有所改進。英特爾還將UPI鏈路調(diào)整為20GT/s，比以前的16 GT/s略有提高。

所有的第五代至強都具備以下特性：

lLGA4677插槽/ Eagle Stream平臺

l超線程

l八通道DDR5內(nèi)存：頂配型號運行速度高達DDR5-5600（1DPC）和DDR5-4800（2DPC），但速度會因型號而異

l80個PCIe 5.0通道

l每個插槽最高6TB內(nèi)存

l支持CXL Type 3內(nèi)存

lAMX，AVX-512，VNNI，BFLOAT 16

lUPI速度從16 GT/S提高到20 GT/S

AI工作負載

生成式AI的熱議度與日俱增，但數(shù)據(jù)中心中使用的人工智能模型多種多樣。盡管目前，我們?nèi)匀皇褂?/span>GPU來訓(xùn)練AI大模型和運行大多數(shù)大型生成式AI模型。然而，大多數(shù)AI推理一直在數(shù)據(jù)中心CPU上運行，我們預(yù)計這一趨勢不僅會繼續(xù)，而且還會穩(wěn)步攀升。

AI領(lǐng)域的發(fā)展瞬息萬變，因此要對其在數(shù)據(jù)中心里的性能進行標(biāo)準(zhǔn)化衡量始終具備挑戰(zhàn)性。而且，批處理大小和其他測試參數(shù)在實際部署中也會有所不同。因此，在這些并沒有優(yōu)化到我們在實際部署中期望的水平的時候，如下基準(zhǔn)測試僅供參考。而一些數(shù)據(jù)中心和企業(yè)會采用現(xiàn)成的AI模型進行微調(diào)，因此，雖然該方法適用于通用性能測試，但所采用的模型等因素也會相應(yīng)不同。

顯然，英特爾啟用 AMX、AVX-512、VNNI 和 Bfloat16 等AI增強功能，為AI用戶奠定了堅實的基礎(chǔ)。在TensorFlow ResNet-50測試中，第五代至強8592+的速度比64核的第四代霄龍9554快18%，但在AlexNet和GoogLeNet模型中，這兩款芯片的速度不相上下。令人驚訝的是，96核的第四代霄龍9654在三個TensorFlow工作負載中均排名墊底，這意味著其chiplets陣列可能無法為此類模型提供最低延遲和最佳可擴展性。

在MLpack中，我們發(fā)現(xiàn)8592+在完成任務(wù)的速度上，比兩款用于對比的其他處理器都要快40%。三個ONNX推斷基準(zhǔn)測試也都突顯出第五代至強內(nèi)置加速器的優(yōu)勢。

關(guān)鍵的是，我們注意到第五代至強在除了GoogleNet模型外的所有工作負載中，相對于上一代60核的8490H都有了大幅度的性能提升。因此整體來看，第五代至強的性能表現(xiàn)出眾。而從其他一些第三方基準(zhǔn)測試中可以看出，AMX為英特爾在利用指令集的模型中提供了顯著的領(lǐng)先優(yōu)勢。正如我們在許多基準(zhǔn)測試中看到的，更高的核心數(shù)量并不是所有類型工作負載的萬能選擇——尤其是在像AI這樣對延遲敏感的工作負載中。

第五代至強利用其AI加速等內(nèi)置的加速引擎，為廣泛工作負載提供了顯著優(yōu)勢。而且，第五代至強在包括AI工作負載在內(nèi)的多個工作負載中均具備領(lǐng)先優(yōu)勢，這也為即將在2024年推出的具備多達288核心的Sierra Forest，以及緊隨其后發(fā)布的Granite Rapids奠定了良好的基礎(chǔ)。

新聞中心

內(nèi)置AI加速器，第五代英特爾至強打造更可靠性能和更出色能效

評論

相關(guān)推薦

技術(shù)專區(qū)