<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > AI 推理競賽白熱化

AI 推理競賽白熱化

—— Nvidia Blackwell、AMD、Google、Untether AI 的首個 MLPerf 基準測試

作者：Dina Genkina 時間：2024-09-06 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

雖然 Nvidia GPU 在 AI 訓(xùn)練中的主導(dǎo)地位仍然是無可爭議的，但我們可能會看到早期跡象，表明在 AI 推理方面，這家科技巨頭的競爭正在加劇，尤其是在能效方面。然而，Nvidia 新 Blackwell 芯片的純粹性能可能很難被擊敗。

本文引用地址：http://www.ex-cimer.com/article/202409/462746.htm

今天早上，ML Commons 發(fā)布了其最新的 AI 推理競賽 ML Perf Inference v4.1 的結(jié)果。本輪融資包括使用 AMD Instinct 加速器、最新 Google Trillium 加速器、多倫多初創(chuàng)公司 UntetherAI 的芯片以及 Nvidia 新 Blackwell 芯片的首次試用團隊的首次提交。另外兩家公司 Cerebras 和 FuriosaAI 宣布推出新的推理芯片，但沒有提交給 MLPerf。

就像奧林匹克運動一樣，MLPerf 有許多類別和子類別。提交數(shù)量最多的是 “datacenter-closed” 類別。封閉類別（而不是開放類別）要求提交者按原樣對給定模型運行推理，而無需對軟件進行重大修改。數(shù)據(jù)中心類別測試提交者對查詢的批量處理，而邊緣類別則側(cè)重于最大限度地減少延遲。

在每個類別中，有 9 個不同的基準測試，適用于不同類型的 AI 任務(wù)。其中包括圖像生成（想想 Midjourney）和 LLM 問答（想想 ChatGPT）等流行的用例，以及同樣重要但不太引人注目的任務(wù)，例如圖像分類、對象檢測和推薦引擎。

本輪比賽包括一個名為 Mix of Expert 的新基準。這是 LLM 部署的一個增長趨勢，其中語言模型被分解為幾個較小的獨立語言模型，每個模型都針對特定任務(wù)進行了微調(diào)，例如定期對話、解決數(shù)學(xué)問題和協(xié)助編碼。該模型可以將每個查詢定向到較小模型的適當子集，即“專家”。MLPerf 推理工作組主席兼 AMD 高級技術(shù)人員 Miroslav Hodak 說，這種方法可以減少每個查詢的資源使用，從而降低成本并提高吞吐量。

在流行的數(shù)據(jù)中心封閉基準測試中，每個基準測試的獲勝者仍然是基于 Nvidia 的 H200 GPU 和 GH200 超級芯片的提交，它們將 GPU 和 CPU 組合在同一個封裝中。然而，仔細觀察性能結(jié)果會描繪出更復(fù)雜的畫面。一些提交者使用了許多加速器芯片，而另一些則只使用了一種。如果我們根據(jù)使用的加速器數(shù)量對每個提交者每秒能夠處理的查詢數(shù)量進行標準化，并僅保留每種加速器類型的性能最佳的提交，就會出現(xiàn)一些有趣的細節(jié)。（請務(wù)必注意，此方法忽略了 CPU 和互連的作用。

在每個加速器的基礎(chǔ)上，Nvidia 的 Blackwell 在 LLM Q&A 任務(wù)上的表現(xiàn)比之前的所有芯片迭代高出 2.5 倍，這是它提交的唯一基準測試。Untether AI 的 speedAI240 Preview 芯片在其唯一的提交任務(wù)（圖像識別）中的性能幾乎與 H200 相當。Google 的 Trillium 在圖像生成方面的表現(xiàn)略高于 H100 和 H200 的一半，AMD 的 Instinct 在 LLM 問答任務(wù)中的表現(xiàn)與 H100 差不多。

Blackwell 的力量

Nvidia Blackwell 成功的原因之一是它能夠使用 4 位浮點精度運行 LLM。Nvidia 及其競爭對手一直在降低 ChatGPT 等 transformer 模型部分用于表示數(shù)據(jù)的位數(shù)，以加快計算速度。Nvidia 在 H100 中引入了 8 位數(shù)學(xué)，此次提交標志著 MLPerf 基準測試中首次演示 4 位數(shù)學(xué)。

使用這種低精度數(shù)字的最大挑戰(zhàn)是保持準確性，Nvidia 的產(chǎn)品營銷總監(jiān) Dave Salvator 說。他說，為了保持 MLPerf 提交所需的高精度，Nvidia 團隊必須在軟件方面進行重大創(chuàng)新。

Blackwell 成功的另一個重要貢獻是它的內(nèi)存帶寬幾乎翻了一番，為 8 TB/秒，而 H200 的內(nèi)存帶寬為 4.8 TB/秒。

圖片.png

英偉達 GB2800 格蕾絲布萊克威爾超級芯片英偉達

Nvidia 提交的 Blackwell 使用了單個芯片，但 Salvator 表示，它是為網(wǎng)絡(luò)和擴展而構(gòu)建的，并且在與 Nvidia 的 NVLink 互連結(jié)合使用時性能最佳。Blackwell GPU 支持多達 18 個 NVLink 每秒 100 GB 連接，總帶寬為每秒 1.8TB，大約是 H100 互連帶寬的兩倍。

Salvatore 認為，隨著大型語言模型規(guī)模的增加，即使是推理也需要多 GPU 平臺來滿足需求，而 Blackwell 就是為這種可能性而構(gòu)建的。“Blackwell 是一個平臺，”Salvator 說。

Nvidia 在預(yù)覽子類別中提交了他們基于 Blackwell 芯片的系統(tǒng)，這意味著它尚未出售，但預(yù)計將在六個月后的下一個 MLPerf 版本之前上市。

Untether AI 在功耗和邊緣領(lǐng)域大放異彩

對于每個基準測試，MLPerf 還包括一個電能測量對應(yīng)物，它系統(tǒng)地測試每個系統(tǒng)在執(zhí)行任務(wù)時消耗的電能。主賽事（數(shù)據(jù)中心封閉能源類別）本輪只有兩個提交者：Nvidia 和 Untether AI。雖然 Nvidia 參加了所有基準測試，但 Untether 只提交了圖像識別。

提交者	加速器	加速器數(shù)量	每秒查詢數(shù)	瓦	每秒每 Watt 的查詢數(shù)
英偉達	英偉達 H200-SXM-141GB	8	480,131.00	5,013.79	95.76
UntetherAI	UntetherAI 速度AI240 Slim	6	309,752.00	985.52	314.30

這家初創(chuàng)公司通過使用一種稱為內(nèi)存計算的方法構(gòu)建芯片，實現(xiàn)了這種令人印象深刻的效率。UntetherAI 的芯片構(gòu)建為內(nèi)存元件網(wǎng)格，小型處理器直接散布在它們旁邊。處理器是并行化的，每個處理器都與附近內(nèi)存單元中的數(shù)據(jù)同時工作，從而大大減少了在內(nèi)存和計算內(nèi)核之間來回切換模型數(shù)據(jù)所花費的時間和精力。

“我們看到的是，執(zhí)行 AI 工作負載的 90% 的能源只是將數(shù)據(jù)從 DRAM 移動到緩存再到處理元件，”Untether AI 產(chǎn)品副總裁 Robert Beachler 說?！八?Untether 所做的就是扭轉(zhuǎn)這種情況......我不是將數(shù)據(jù)移動到計算中，而是將計算中移到數(shù)據(jù)中。

事實證明，這種方法在 MLPerf 的另一個子類別中特別成功：邊緣閉合。Beachler 說，此類別面向更多的實際用例，例如工廠車間的機器檢查、導(dǎo)視機器人和自動駕駛汽車，這些應(yīng)用對低能耗和快速處理至關(guān)重要。

提交者	GPU 類型	GPU 數(shù)量	單流延遲（ms）	多流延遲（ms）	采樣/秒
聯(lián)想	NVIDIA L4	2	0.39	0.75	25,600.00
聯(lián)想	英偉達 L40S	2	0.33	0.53	86,304.60
UntetherAI	UntetherAI speedAI240 預(yù)覽	2	0.12	0.21	140,625.00

在圖像識別任務(wù)上，SpeedAI240 Preview 芯片再次是唯一報告結(jié)果的 UntetherAI 芯片，其延遲性能比 NVIDIA L40S 高出 2.8 倍，其吞吐量（每秒樣本數(shù)）高出 1.6 倍。這家初創(chuàng)公司也提交了該類別的強大結(jié)果，但他們的 Nvidia 加速競爭對手沒有，因此很難進行直接比較。然而，UntetherAI 的 speedAI240 Preview 芯片每個芯片的標稱功耗為 150 瓦，而 Nvidia 的 L40s 為 350 瓦，導(dǎo)致標稱功耗降低 2.3 倍，延遲得到改善。

Cerebras、Furiosa 跳過 MLPerf 但宣布推出新芯片

圖片.png

Furiosa 的新芯片以一種不同的、更高效的方式實現(xiàn)了 AI 推理的基本數(shù)學(xué)功能，即矩陣乘法。 FURIOSA （飛躍）

昨天在斯坦福大學(xué)舉行的 IEEE Hot Chips 會議上，Cerebras 推出了自己的推理服務(wù)。這家位于加利福尼亞州桑尼維爾的公司生產(chǎn)硅晶片允許的巨型芯片，從而避免了芯片之間的互連，并大大增加了其設(shè)備的內(nèi)存帶寬，這些設(shè)備主要用于訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)?，F(xiàn)在，它已經(jīng)升級了其軟件堆棧，以使用其最新的計算機 CS3 進行推理。

盡管 Cerebras 沒有提交給 MLPerf，但該公司聲稱其平臺在每秒生成的 LLM 代幣方面比 H100 高 7 倍，比競爭對手的 AI 初創(chuàng)公司 Groq 的芯片高出 2 倍?！敖裉?，我們正處于 Gen AI 的撥號時代，”Cerebras 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Andrew Feldman 說?！斑@是因為存在內(nèi)存帶寬障礙。無論是 Nvidia 的 H100 還是 MI 300 或 TPU，它們都使用相同的片外內(nèi)存，并且會產(chǎn)生相同的限制。我們突破了這一點，我們之所以這樣做，是因為我們是晶圓級的。

Hot Chips 還看到了首爾 Furiosa 的公告，展示了他們的第二代芯片 RNGD（發(fā)音為“renegade”）。Furiosa 芯片的不同之處在于其張量收縮處理器（TCP）架構(gòu)。AI 工作負載中的基本操作是矩陣乘法，通常作為硬件中的基元實現(xiàn)。但是，矩陣的大小和形狀（通常稱為張量）可能會有很大差異。RNGD 將這個更廣義的版本 Tensors 的乘法實現(xiàn)為基元。“在推理過程中，批量大小差異很大，因此利用給定張量形狀的固有并行性和數(shù)據(jù)重用非常重要，”Furiosa 創(chuàng)始人兼首席執(zhí)行官 June Paik 在 Hot Chips 上說。

雖然沒有提交給 MLPerf，但 Furiosa 在內(nèi)部將其 RNGD 芯片的性能與 MLPerf 的 LLM 摘要基準測試進行了比較。它的性能與 Nvidia 面向邊緣的 L40S 芯片相當，而 L40S 的功率為 185 瓦，而 L40S 為 320 瓦。而且，Paik 說，隨著軟件的進一步優(yōu)化，性能將得到提高。

IBM 還宣布了其專為企業(yè)生成式 AI 工作負載設(shè)計的新型 Spyre 芯片，將于 2025 年第一季度上市。

至少，在可預(yù)見的未來，AI 推理芯片市場上的購物者不會感到無聊。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Nvidia Blackwell AMD Google Untether AI MLPerf 基準測試

評論

相關(guān)推薦

馬斯克 xAI 上線全球最大 AI 訓(xùn)練集群：122 天搭建 10 萬張英偉達 H100，未來幾月將翻倍至 20 萬張

智能計算 AI 馬斯克英偉達 | 2024-09-04

AI PC最強CPU能否讓英特爾“緩口氣”

智能計算 AI PC CPU 英特爾 | 2024-09-05

萬家樂JSYZ5-AI燃氣熱水器電路圖

設(shè)計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

AM29LV160D datasheet

資源下載 AMD AM29LV160D datasheet | 2007-02-28

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

OpenAI計劃籌資數(shù)百億在美打造AI基礎(chǔ)設(shè)施

OpenAI AI 基礎(chǔ)設(shè)施 | 2024-09-05

Google搜索從入門到精通 v4.0 （一）

資源下載 internet Google 搜索工具 | 2007-02-09

[Android開發(fā)視頻教學(xué)]Android平臺一日游(01)

視頻 google Android | 2010-10-29

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

AMD內(nèi)部資料：如何通過創(chuàng)新架構(gòu)和電源技術(shù)提升處理器能效

設(shè)計方案微處理器能源效率 AMD APU | 2015-08-13

[Android開發(fā)視頻教學(xué)]Activity初步(04)

視頻 google Android | 2010-10-29

英偉達投資日本AI研發(fā)初創(chuàng)公司Sakana AI

智能計算英偉達 AI研發(fā)初創(chuàng)公司 Sakana AI | 2024-09-05

Supermicro將推出基于Intel技術(shù)、全新高性能X14服務(wù)器，適用于AI、高性能計算與關(guān)鍵型企業(yè)工作負載

網(wǎng)絡(luò)與存儲 Supermicro Intel X14服務(wù)器 AI 高性能計算工作負載 | 2024-09-03

[Android開發(fā)視頻教學(xué)]搭建Android開發(fā)環(huán)境(02)

視頻 google Android | 2010-10-29

全新英特爾酷睿Ultra處理器為AI PC時代帶來開創(chuàng)性卓越性能和非凡效率

智能計算酷睿 Ultra處理器 AI PC | 2024-09-04

AI 引發(fā)了一場關(guān)于網(wǎng)絡(luò)爬蟲的戰(zhàn)斗

智能計算 AI 網(wǎng)絡(luò)爬蟲生成式 AI | 2024-09-06

嵌入式應(yīng)用APU與處理器進步成果漫談

設(shè)計方案嵌入式應(yīng)用 APU AMD 處理器 R | 2015-06-23

Google過濾技術(shù)描述

liujt_ic | 2002-12-21

大家試試http://www.google.com/，可恥的“新時代資訊網(wǎng)”！

seasoblue | 2002-09-09

評論：Google選出的新聞?wù)娴墓龁?

hpnet | 2002-11-14

Google Talk - Google 的即時通訊軟件

資源下載 GOOGLE 通訊 Google Talk - Google | 2007-12-03

全硅“片上風(fēng)扇”使薄型器件保持低溫

消費電子 xMEMS 風(fēng)扇設(shè)備端 AI 系統(tǒng) 片上風(fēng)扇 | 2024-09-05

谷歌(Google)拼音輸入法[版本1.1.26.50]

資源下載 GOOGLE 谷歌拼音輸入法瀏覽器 | 2008-01-07

[Android開發(fā)視頻教學(xué)]Activity和Intent(05)

視頻 google Android | 2010-10-29

Google與Sprint共創(chuàng)手機圖像搜索服務(wù)

hpnet | 2002-12-20

[Android開發(fā)視頻教學(xué)]say_hello_to_Android(03)

視頻 google Android | 2010-10-29

AI 推理競賽白熱化

智能計算 Nvidia Blackwell AMD Google Untether AI MLPerf 基準測試 | 2024-09-06

google搜索能找到我們論壇

amine | 2002-05-31

力積電多層晶圓堆疊技術(shù)獲AMD等大廠采用

EDA/PCB 力積電 AMD 3D堆疊 | 2024-09-05

AM29LV160D

資源下載 AMD AM29LV160D | 2007-02-28

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();