<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 新品快遞 > 碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

作者：時間：2023-09-12 來源：新智元

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

【新智元導(dǎo)讀】傳說中的英偉達(dá) GH200 在 MLPerf 3.1 中驚艷亮相，性能直接碾壓 H100，領(lǐng)先了 17%。

本文引用地址：http://www.ex-cimer.com/article/202309/450472.htm

繼 4 月份加入 LLM 訓(xùn)練測試后，MLPerf 再次迎來重磅更新！

剛剛，MLCommons 發(fā)布了 MLPerf v3.1 版本更新，并加入了兩個全新基準(zhǔn)：LLM 推理測試 MLPerf Inference v3.1，以及存儲性能測試 MLPerf Storage v0.5。

而這，這也是英偉達(dá) GH200 測試成績的首次亮相！

相比于單張 H100 配合英特爾 CPU，GH200 的 Grace CPU+H100 GPU 的組合，在各個項目上都有 15% 左右的提升。

英偉達(dá) GH200 超級芯片首秀

毫無疑問，英偉達(dá)的 GPU 在 MLPerf Inference 3.1 基準(zhǔn)測試中表現(xiàn)是最亮眼的。

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

其中，最新發(fā)布的 GH200 Grace Hopper 超級芯片，也是首次在 MLPerf Inference 3.1 上亮相。

Grace Hopper 超級芯片將英偉達(dá)的 Grace CPU 與 H100 GPU 集成在一起，通過超高的帶寬連接，從而比單個 H100 配合其他的 CPU 能提供更強的性能表現(xiàn)。

「Grace Hopper 首次展示了非常強勁的性能，與我們的 H100 GPU 提交相比，性能提高了 17%，我們已經(jīng)全面領(lǐng)先，」英偉達(dá)人工智能總監(jiān) Dave Salvator 在新聞發(fā)布會上表示。

性能大幅增長

具體來說，它將一個 H100 GPU 和 Grace CPU 集成在一起，通過 900GB/s的 NVLink-C2C 連接。

而 CPU 和 GPU 分別配備了 480GB 的 LPDDR5X 內(nèi)存和 96GB 的 HBM3 或者 144GB 的 HBM3e 的內(nèi)存，集成了高達(dá) 576GB 以上的高速訪問內(nèi)存。

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

英偉達(dá) GH200 Grace Hopper 超級芯片專為計算密集型工作負(fù)載而設(shè)計，能夠滿足各種嚴(yán)苛的要求和各項功能。

比如訓(xùn)練和運行數(shù)萬億參數(shù)的大型 Transformer 模型，或者是運行具有數(shù) TB 大小的嵌入表的推薦系統(tǒng)和向量數(shù)據(jù)庫。

GH200 Grace Hopper 超級芯片還在 MLPerf Inference 測試中有著非常優(yōu)異的表現(xiàn)，刷新了英偉達(dá)單個 H100 SXM 在每個項目中創(chuàng)下的最佳成績。

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

▲ NVIDIA Grace Hopper MLPerf Inference 數(shù)據(jù)中心性能與 DGX H100 SXM 的對比結(jié)果，每個數(shù)值都是 GH200 的性能領(lǐng)先幅度

GH200 Grace Hopper 超級芯片集成了 96 GB 的 HBM3，并提供高達(dá) 4 TB / s 的 HBM3 內(nèi)存帶寬，而 H100 SXM 分別為 80 GB 和 3.35 TB / s。

與 H100 SXM 相比，更大的內(nèi)存容量和更大的內(nèi)存帶寬使得在 NVIDIA GH200 Grace Hopper 超級芯片上使用更大的批處理大小來處理工作負(fù)載。

例如，在服務(wù)器場景中，RetinaNet 和 DLRMv2 的批處理大小都增加了一倍，在離線場景中，批處理大小增加了 50%。

GH200 Grace Hopper 超級芯片在 Hopper GPU 和 Grace CPU 之間的高帶寬 NVLink-C2C 連接可以實現(xiàn) CPU 和 GPU 之間的快速通信，從而有助于提高性能。

例如，在 MLPerf DLRMv2 中，在 H100 SXM 上通過 PCIe 傳輸一批張量（Tensor）大約需要 22% 的批處理推理時間。

使用了 NVLink-C2C 的 GH200 Grace Hopper 超級芯片僅使用 3% 的推理時間就完成了相同的傳輸。

由于具有更高的內(nèi)存帶寬和更大的內(nèi)存容量，與 MLPerf Inference v3.1 的 H100 GPU 相比，Grace Hopper 超級芯片的單芯片性能優(yōu)勢高達(dá) 17%。

推理和訓(xùn)練全面領(lǐng)先

在 MLPerf 的首秀中，GH200 Grace Hopper Superchip 在封閉類別（Closed Division）的所有工作負(fù)載和場景上都表現(xiàn)出卓越的性能。

而在主流的服務(wù)器應(yīng)用中，L4 GPU 能夠提供一個低功耗，緊湊型的算力解決方案，與 CPU 解決方案相比的性能也有了大幅的提升。

Salvator 表示，「與測試中最好的 x86 CPU 相比，L4 的性能也非常強勁，提高了 6 倍」。

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

對于其他的 AI 應(yīng)用和機器人應(yīng)用，Jetson AGX Orin 和 Jetson Orin NX 模塊實現(xiàn)了出色的性能。未來的軟件優(yōu)化有助于進一步釋放強大的英偉達(dá) Orin SoC 在這些模塊中的潛力。

在目前非常流行的目標(biāo)檢測 AI 網(wǎng)絡(luò) ——RetinaNet 上，英偉達(dá)的產(chǎn)品的性能提高了高達(dá) 84%。

英偉達(dá)開放部分（Open Division）的結(jié)果，展示了通過模型優(yōu)化可以在保持極高精度的同時大幅提高推理性能的潛力。

全新 MLPerf 3.1 基準(zhǔn)測試

當(dāng)然，這并不是 MLCommons 第一次嘗試對大語言模型的性能進行基準(zhǔn)測試。早在今年 6 月，MLPerf v3.0 就首次加入了 LLM 訓(xùn)練的基準(zhǔn)測試。不過，LLM 的訓(xùn)練和推理任務(wù)，區(qū)別很大。

推理工作負(fù)載對計算要求高，而且種類繁多，這就要求平臺能夠快速處理各種類型的數(shù)據(jù)預(yù)測，并能在各種 AI 模型上進行推理。

對于希望部署 AI 系統(tǒng)的企業(yè)來說，需要一種方法來客觀評估基礎(chǔ)設(shè)施在各種工作負(fù)載、環(huán)境和部署場景中的性能。所以對于訓(xùn)練和推理的基準(zhǔn)測試都是很重要的。

MLPerf Inference v3.1 包括了兩項重要更新，來更好地反映現(xiàn)在 AI 實際的使用情況：

首先，增加了基于 GPT-J 的大型語言模型 (LLM) 推理的測試。GPT-J 是一個開源的 6B 參數(shù) LLM，對 CNN / 每日郵報數(shù)據(jù)集進行文本總結(jié)。

除了 GPT-J 之外，這次還更新了 DLRM 測試。針對 MLPerf Training v3.0 中引入的 DLRM，采用了新的模型架構(gòu)和更大的數(shù)據(jù)集，更好地反映了推薦系統(tǒng)的規(guī)模和復(fù)雜性。

MLCommons 創(chuàng)始人兼執(zhí)行董事 David Kanter 表示，訓(xùn)練基準(zhǔn)側(cè)重于更大規(guī)模的基礎(chǔ)模型，而推理基準(zhǔn)執(zhí)行的實際任務(wù)，則代表了更廣泛的用例，大部分組織都可以進行部署。

在這方面，為了能夠?qū)Ω鞣N推理平臺和用例進行有代表性的測試，MLPerf 定義了四種不同的場景。

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

每個基準(zhǔn)都由數(shù)據(jù)集和質(zhì)量目標(biāo)定義。

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

每個基準(zhǔn)都需要以下場景：

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

在 MLPerf v3.1 基準(zhǔn)測試中，有超過 13,500 個結(jié)果，其中不少提交者的性能比 3.0 基準(zhǔn)提高了 20%，甚至更多。

其他提交者包括華碩，Azure，cTuning，Connect Tech，戴爾，富士通，Giga Computing，谷歌，H3C，HPE，IEI，英特爾，Intel Habana Labs，Krai，聯(lián)想，墨芯，Neural Magic，Nutanix，甲骨文，高通，Quanta Cloud Technology，SiMA，Supermicro，TTA 和 xFusion 等。

碾壓 H100！英偉達(dá) GH200 超級芯片首秀 MLPerf v3.1，性能躍升 17%

詳細(xì)數(shù)據(jù)：https://mlcommons.org/en/inference-datacenter-31/

參考資料：

https://developer.nvidia.com/blog/leading-mlperf-inference-v3-1-results-gh200-grace-hopper-superchip-debut/?ncid=so-twit-408646&=&linkId=100000217826658
https://mlcommons.org/en/inference-datacenter-31/
https://venturebeat.com/ai/mlperf-3-1-adds-large-language-model-benchmarks-for-inference/

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 英偉達(dá) GPU 計算平臺

評論

相關(guān)推薦

消息稱英偉達(dá) RTX 4070 及以上顯卡因 GDDR6X 顯存缺貨 8 月供應(yīng)緊張

消費電子英偉達(dá) GPU | 2024-07-29

大嘴業(yè)話——ARM再次上市，究竟7年時間算不算被偷走的？（1）

視頻英偉達(dá) 嵌入式 ARM 軟銀 | 2023-11-06

基于GPU的數(shù)字圖像并行處理研究

設(shè)計方案圖像處理算法并行流處理 GPU | 2015-08-13

大嘴業(yè)話——英偉達(dá)宣布進軍CPU市場

視頻英偉達(dá) AI CPU | 2023-11-10

LabVIEW和GPU用于實時高性能運算系統(tǒng)

資源下載 NI LabVIEW GPU | 2013-03-29

在英偉達(dá)工作不容易？員工曝高壓高工時更甚臺積電

國際視野英偉達(dá) 臺積電 | 2024-07-24

英偉達(dá)RTX 50系顯卡延期至2025年

英偉達(dá) 顯卡 AMD Intel CES | 2024-07-23

三星通過英偉達(dá)測試內(nèi)幕：用在中國大陸產(chǎn)品

網(wǎng)絡(luò)與存儲三星英偉達(dá) HBM3 | 2024-07-24

Imagination：我們的移動GPU技術(shù)一騎絕塵

設(shè)計方案 Imagination TI GPU | 2015-08-19

APU與GPU共進 AMD搶攻嵌入式應(yīng)用

設(shè)計方案 APU GPU AMD | 2015-08-19

基于視覺的駕駛員輔助嵌入式系統(tǒng)(下)

資源下載 ADAS 嵌入式 GPU | 2014-03-28

傳英偉達(dá)曾要求建立專用CoWoS產(chǎn)線，但是被臺積電拒絕

智能計算英偉達(dá) CoWoS 臺積電 | 2024-07-24

Manpower代招上海 US MNC GPU Physical design technical leader

魔都獵頭招聘 | 2013-07-23

GPU圖形處理器各大廠家芯片參數(shù)介紹

資源下載 GPU 芯片 | 2013-08-30

Intel 收購 NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動處理 | 2012-12-26

消息稱英偉達(dá)曾向臺積電詢問建設(shè)廠外 CoWoS 先進封裝專線可能，遭拒絕

EDA/PCB 英偉達(dá) GPU 封裝工藝臺積電 | 2024-07-23

CPU與GPU：誰將主導(dǎo)下一次計算革命？

資源下載 CPU GPU 計算革命融合集成 SOC | 2008-05-26

醫(yī)療電子平臺選擇:FPGA、ARM、X86、DSP還是GPU分析

設(shè)計方案 FPGA ARM DSP GPU X | 2015-08-13

獲得GPU存儲性能的四種方法

資源下載 GPU 存儲 | 2020-04-01

【100積分限時送】Do?you?have?4?mintes?

nakey | 2021-05-24

Meta訓(xùn)練Llama 3遭遇頻繁故障

智能計算 Meta Llama 3 英偉達(dá) H100 顯卡 GPU | 2024-07-29

大嘴業(yè)話：A12真的能改變競爭格局么？

視頻 ARM A12 GPU | 2013-06-21

大嘴業(yè)話——ARM再次上市，究竟7年時間算不算被偷走的？（2）

視頻 AI 英偉達(dá) ARM | 2023-11-07

gpu_gpu是什么意思

dolphin | 2014-06-12

浪潮信息回應(yīng)與英偉達(dá)分銷中國特供B20芯片：消息不實

智能計算英偉達(dá) 浪潮 B20 | 2024-07-23

這顆芯片有故事，你有酒嗎？

FPGAwuhan | 2016-08-20

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達(dá) GPU | 2024-07-26

談GPU的作用、原理及與CPU、DSP的區(qū)別

設(shè)計方案 GPU CPU DSP 緩存體系 3 | 2015-08-13

英偉達(dá)的挑戰(zhàn)者的來錢之道

智能計算英偉達(dá) 大模型 | 2024-07-23

RISC-V為開源GPU鋪平道路

風(fēng)的印記 | 2021-08-16

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();