<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁(yè) > 智能計(jì)算 > 新品快遞 > 碾壓 H100!英偉達(dá) GH200 超級(jí)芯片首秀 MLPerf v3.1,性能躍升 17%

          碾壓 H100!英偉達(dá) GH200 超級(jí)芯片首秀 MLPerf v3.1,性能躍升 17%

          作者: 時(shí)間:2023-09-12 來(lái)源:新智元 收藏

          【新智元導(dǎo)讀】傳說(shuō)中的 GH200 在 MLPerf 3.1 中驚艷亮相,性能直接碾壓 H100,領(lǐng)先了 17%。

          本文引用地址:http://www.ex-cimer.com/article/202309/450472.htm

          繼 4 月份加入 LLM 訓(xùn)練測(cè)試后,MLPerf 再次迎來(lái)重磅更新!

          剛剛,MLCommons 發(fā)布了 MLPerf v3.1 版本更新,并加入了兩個(gè)全新基準(zhǔn):LLM 推理測(cè)試 MLPerf Inference v3.1,以及存儲(chǔ)性能測(cè)試 MLPerf Storage v0.5。

          而這,這也是 GH200 測(cè)試成績(jī)的首次亮相!

          相比于單張 H100 配合英特爾 CPU,GH200 的 Grace CPU+H100 的組合,在各個(gè)項(xiàng)目上都有 15% 左右的提升。

          GH200 超級(jí)芯片首秀

          毫無(wú)疑問(wèn),英偉達(dá)的 在 MLPerf Inference 3.1 基準(zhǔn)測(cè)試中表現(xiàn)是最亮眼的。

          其中,最新發(fā)布的 GH200 Grace Hopper 超級(jí)芯片,也是首次在 MLPerf Inference 3.1 上亮相。

          Grace Hopper 超級(jí)芯片將英偉達(dá)的 Grace CPU 與 H100 集成在一起,通過(guò)超高的帶寬連接,從而比單個(gè) H100 配合其他的 CPU 能提供更強(qiáng)的性能表現(xiàn)。

          「Grace Hopper 首次展示了非常強(qiáng)勁的性能,與我們的 H100 GPU 提交相比,性能提高了 17%,我們已經(jīng)全面領(lǐng)先,」英偉達(dá)人工智能總監(jiān) Dave Salvator 在新聞發(fā)布會(huì)上表示。

          性能大幅增長(zhǎng)

          具體來(lái)說(shuō),它將一個(gè) H100 GPU 和 Grace CPU 集成在一起,通過(guò) 900GB/s的 NVLink-C2C 連接。

          而 CPU 和 GPU 分別配備了 480GB 的 LPDDR5X 內(nèi)存和 96GB 的 HBM3 或者 144GB 的 HBM3e 的內(nèi)存,集成了高達(dá) 576GB 以上的高速訪問(wèn)內(nèi)存。

          英偉達(dá) GH200 Grace Hopper 超級(jí)芯片專為計(jì)算密集型工作負(fù)載而設(shè)計(jì),能夠滿足各種嚴(yán)苛的要求和各項(xiàng)功能。

          比如訓(xùn)練和運(yùn)行數(shù)萬(wàn)億參數(shù)的大型 Transformer 模型,或者是運(yùn)行具有數(shù) TB 大小的嵌入表的推薦系統(tǒng)和向量數(shù)據(jù)庫(kù)。

          GH200 Grace Hopper 超級(jí)芯片還在 MLPerf Inference 測(cè)試中有著非常優(yōu)異的表現(xiàn),刷新了英偉達(dá)單個(gè) H100 SXM 在每個(gè)項(xiàng)目中創(chuàng)下的最佳成績(jī)。

          ▲ NVIDIA Grace Hopper MLPerf Inference 數(shù)據(jù)中心性能與 DGX H100 SXM 的對(duì)比結(jié)果,每個(gè)數(shù)值都是 GH200 的性能領(lǐng)先幅度

          GH200 Grace Hopper 超級(jí)芯片集成了 96 GB 的 HBM3,并提供高達(dá) 4 TB / s 的 HBM3 內(nèi)存帶寬,而 H100 SXM 分別為 80 GB 和 3.35 TB / s。

          與 H100 SXM 相比,更大的內(nèi)存容量和更大的內(nèi)存帶寬使得在 NVIDIA GH200 Grace Hopper 超級(jí)芯片上使用更大的批處理大小來(lái)處理工作負(fù)載。

          例如,在服務(wù)器場(chǎng)景中,RetinaNet 和 DLRMv2 的批處理大小都增加了一倍,在離線場(chǎng)景中,批處理大小增加了 50%。

          GH200 Grace Hopper 超級(jí)芯片在 Hopper GPU 和 Grace CPU 之間的高帶寬 NVLink-C2C 連接可以實(shí)現(xiàn) CPU 和 GPU 之間的快速通信,從而有助于提高性能。

          例如,在 MLPerf DLRMv2 中,在 H100 SXM 上通過(guò) PCIe 傳輸一批張量(Tensor)大約需要 22% 的批處理推理時(shí)間。

          使用了 NVLink-C2C 的 GH200 Grace Hopper 超級(jí)芯片僅使用 3% 的推理時(shí)間就完成了相同的傳輸。

          由于具有更高的內(nèi)存帶寬和更大的內(nèi)存容量,與 MLPerf Inference v3.1 的 H100 GPU 相比,Grace Hopper 超級(jí)芯片的單芯片性能優(yōu)勢(shì)高達(dá) 17%。

          推理和訓(xùn)練全面領(lǐng)先

          在 MLPerf 的首秀中,GH200 Grace Hopper Superchip 在封閉類別(Closed Division)的所有工作負(fù)載和場(chǎng)景上都表現(xiàn)出卓越的性能。

          而在主流的服務(wù)器應(yīng)用中,L4 GPU 能夠提供一個(gè)低功耗,緊湊型的算力解決方案,與 CPU 解決方案相比的性能也有了大幅的提升。

          Salvator 表示,「與測(cè)試中最好的 x86 CPU 相比,L4 的性能也非常強(qiáng)勁,提高了 6 倍」。

          對(duì)于其他的 AI 應(yīng)用和機(jī)器人應(yīng)用,Jetson AGX Orin 和 Jetson Orin NX 模塊實(shí)現(xiàn)了出色的性能。未來(lái)的軟件優(yōu)化有助于進(jìn)一步釋放強(qiáng)大的英偉達(dá) Orin SoC 在這些模塊中的潛力。

          在目前非常流行的目標(biāo)檢測(cè) AI 網(wǎng)絡(luò) ——RetinaNet 上,英偉達(dá)的產(chǎn)品的性能提高了高達(dá) 84%。

          英偉達(dá)開(kāi)放部分(Open Division)的結(jié)果,展示了通過(guò)模型優(yōu)化可以在保持極高精度的同時(shí)大幅提高推理性能的潛力。

          全新 MLPerf 3.1 基準(zhǔn)測(cè)試

          當(dāng)然,這并不是 MLCommons 第一次嘗試對(duì)大語(yǔ)言模型的性能進(jìn)行基準(zhǔn)測(cè)試。早在今年 6 月,MLPerf v3.0 就首次加入了 LLM 訓(xùn)練的基準(zhǔn)測(cè)試。不過(guò),LLM 的訓(xùn)練和推理任務(wù),區(qū)別很大。

          推理工作負(fù)載對(duì)計(jì)算要求高,而且種類繁多,這就要求平臺(tái)能夠快速處理各種類型的數(shù)據(jù)預(yù)測(cè),并能在各種 AI 模型上進(jìn)行推理。

          對(duì)于希望部署 AI 系統(tǒng)的企業(yè)來(lái)說(shuō),需要一種方法來(lái)客觀評(píng)估基礎(chǔ)設(shè)施在各種工作負(fù)載、環(huán)境和部署場(chǎng)景中的性能。所以對(duì)于訓(xùn)練和推理的基準(zhǔn)測(cè)試都是很重要的。

          MLPerf Inference v3.1 包括了兩項(xiàng)重要更新,來(lái)更好地反映現(xiàn)在 AI 實(shí)際的使用情況:

          首先,增加了基于 GPT-J 的大型語(yǔ)言模型 (LLM) 推理的測(cè)試。GPT-J 是一個(gè)開(kāi)源的 6B 參數(shù) LLM,對(duì) CNN / 每日郵報(bào)數(shù)據(jù)集進(jìn)行文本總結(jié)。

          除了 GPT-J 之外,這次還更新了 DLRM 測(cè)試。針對(duì) MLPerf Training v3.0 中引入的 DLRM,采用了新的模型架構(gòu)和更大的數(shù)據(jù)集,更好地反映了推薦系統(tǒng)的規(guī)模和復(fù)雜性。

          MLCommons 創(chuàng)始人兼執(zhí)行董事 David Kanter 表示,訓(xùn)練基準(zhǔn)側(cè)重于更大規(guī)模的基礎(chǔ)模型,而推理基準(zhǔn)執(zhí)行的實(shí)際任務(wù),則代表了更廣泛的用例,大部分組織都可以進(jìn)行部署。

          在這方面,為了能夠?qū)Ω鞣N推理平臺(tái)和用例進(jìn)行有代表性的測(cè)試,MLPerf 定義了四種不同的場(chǎng)景。

          每個(gè)基準(zhǔn)都由數(shù)據(jù)集和質(zhì)量目標(biāo)定義。

          每個(gè)基準(zhǔn)都需要以下場(chǎng)景:

          在 MLPerf v3.1 基準(zhǔn)測(cè)試中,有超過(guò) 13,500 個(gè)結(jié)果,其中不少提交者的性能比 3.0 基準(zhǔn)提高了 20%,甚至更多。

          其他提交者包括華碩,Azure,cTuning,Connect Tech,戴爾,富士通,Giga Computing,谷歌,H3C,HPE,IEI,英特爾,Intel Habana Labs,Krai,聯(lián)想,墨芯,Neural Magic,Nutanix,甲骨文,高通,Quanta Cloud Technology,SiMA,Supermicro,TTA 和 xFusion 等。

          詳細(xì)數(shù)據(jù):https://mlcommons.org/en/inference-datacenter-31/

          參考資料:

          • https://developer.nvidia.com/blog/leading-mlperf-inference-v3-1-results-gh200-grace-hopper-superchip-debut/?ncid=so-twit-408646&=&linkId=100000217826658

          • https://mlcommons.org/en/inference-datacenter-31/

          • https://venturebeat.com/ai/mlperf-3-1-adds-large-language-model-benchmarks-for-inference/




          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();