<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁(yè) > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > AI 推理競(jìng)賽白熱化

          AI 推理競(jìng)賽白熱化

          —— Nvidia Blackwell、AMD、Google、Untether AI 的首個(gè) MLPerf 基準(zhǔn)測(cè)試
          作者:Dina Genkina 時(shí)間:2024-09-06 來(lái)源: 收藏

          雖然 Nvidia GPU 在 AI 訓(xùn)練中的主導(dǎo)地位仍然是無(wú)可爭(zhēng)議的,但我們可能會(huì)看到早期跡象,表明在 AI 推理方面,這家科技巨頭的競(jìng)爭(zhēng)正在加劇,尤其是在能效方面。然而,Nvidia 新 Blackwell 芯片的純粹性能可能很難被擊敗。

          本文引用地址:http://www.ex-cimer.com/article/202409/462746.htm

          今天早上,ML Commons 發(fā)布了其最新的 AI 推理競(jìng)賽 ML Perf Inference v4.1 的結(jié)果。本輪融資包括使用  Instinct 加速器、最新  Trillium 加速器、多倫多初創(chuàng)公司 UntetherAI 的芯片以及 Nvidia 新 Blackwell 芯片的首次試用團(tuán)隊(duì)的首次提交。另外兩家公司 Cerebras 和 FuriosaAI 宣布推出新的推理芯片,但沒(méi)有提交給 。

          就像奧林匹克運(yùn)動(dòng)一樣, 有許多類別和子類別。提交數(shù)量最多的是 “datacenter-closed” 類別。封閉類別(而不是開(kāi)放類別)要求提交者按原樣對(duì)給定模型運(yùn)行推理,而無(wú)需對(duì)軟件進(jìn)行重大修改。數(shù)據(jù)中心類別測(cè)試提交者對(duì)查詢的批量處理,而邊緣類別則側(cè)重于最大限度地減少延遲。

           

           1725604982964.png

          在每個(gè)類別中,有 9 個(gè)不同的,適用于不同類型的 AI 任務(wù)。其中包括圖像生成(想想 Midjourney)和 LLM 問(wèn)答(想想 ChatGPT)等流行的用例,以及同樣重要但不太引人注目的任務(wù),例如圖像分類、對(duì)象檢測(cè)和推薦引擎。

          本輪比賽包括一個(gè)名為 Mix of Expert 的新基準(zhǔn)。這是 LLM 部署的一個(gè)增長(zhǎng)趨勢(shì),其中語(yǔ)言模型被分解為幾個(gè)較小的獨(dú)立語(yǔ)言模型,每個(gè)模型都針對(duì)特定任務(wù)進(jìn)行了微調(diào),例如定期對(duì)話、解決數(shù)學(xué)問(wèn)題和協(xié)助編碼。該模型可以將每個(gè)查詢定向到較小模型的適當(dāng)子集,即“專家”。 推理工作組主席兼  高級(jí)技術(shù)人員 Miroslav Hodak 說(shuō),這種方法可以減少每個(gè)查詢的資源使用,從而降低成本并提高吞吐量。

          在流行的數(shù)據(jù)中心封閉中,每個(gè)的獲勝者仍然是基于 Nvidia 的 H200 GPU 和 GH200 超級(jí)芯片的提交,它們將 GPU 和 CPU 組合在同一個(gè)封裝中。然而,仔細(xì)觀察性能結(jié)果會(huì)描繪出更復(fù)雜的畫(huà)面。一些提交者使用了許多加速器芯片,而另一些則只使用了一種。如果我們根據(jù)使用的加速器數(shù)量對(duì)每個(gè)提交者每秒能夠處理的查詢數(shù)量進(jìn)行標(biāo)準(zhǔn)化,并僅保留每種加速器類型的性能最佳的提交,就會(huì)出現(xiàn)一些有趣的細(xì)節(jié)。(請(qǐng)務(wù)必注意,此方法忽略了 CPU 和互連的作用。

          在每個(gè)加速器的基礎(chǔ)上,Nvidia 的 Blackwell 在 LLM Q&A 任務(wù)上的表現(xiàn)比之前的所有芯片迭代高出 2.5 倍,這是它提交的唯一基準(zhǔn)測(cè)試。 的 speedAI240 Preview 芯片在其唯一的提交任務(wù)(圖像識(shí)別)中的性能幾乎與 H200 相當(dāng)。 的 Trillium 在圖像生成方面的表現(xiàn)略高于 H100 和 H200 的一半, 的 Instinct 在 LLM 問(wèn)答任務(wù)中的表現(xiàn)與 H100 差不多。

           1725605005259.png

           

          Blackwell 的力量

          Nvidia Blackwell 成功的原因之一是它能夠使用 4 位浮點(diǎn)精度運(yùn)行 LLM。Nvidia 及其競(jìng)爭(zhēng)對(duì)手一直在降低 ChatGPT 等 transformer 模型部分用于表示數(shù)據(jù)的位數(shù),以加快計(jì)算速度。Nvidia 在 H100 中引入了 8 位數(shù)學(xué),此次提交標(biāo)志著 MLPerf 基準(zhǔn)測(cè)試中首次演示 4 位數(shù)學(xué)。

          使用這種低精度數(shù)字的最大挑戰(zhàn)是保持準(zhǔn)確性,Nvidia 的產(chǎn)品營(yíng)銷總監(jiān) Dave Salvator 說(shuō)。他說(shuō),為了保持 MLPerf 提交所需的高精度,Nvidia 團(tuán)隊(duì)必須在軟件方面進(jìn)行重大創(chuàng)新。

          Blackwell 成功的另一個(gè)重要貢獻(xiàn)是它的內(nèi)存帶寬幾乎翻了一番,為 8 TB/秒,而 H200 的內(nèi)存帶寬為 4.8 TB/秒。

          圖片.png

          英偉達(dá) GB2800 格蕾絲布萊克威爾超級(jí)芯片英偉達(dá)

          Nvidia 提交的 Blackwell 使用了單個(gè)芯片,但 Salvator 表示,它是為網(wǎng)絡(luò)和擴(kuò)展而構(gòu)建的,并且在與 Nvidia 的 NVLink 互連結(jié)合使用時(shí)性能最佳。Blackwell GPU 支持多達(dá) 18 個(gè) NVLink 每秒 100 GB 連接,總帶寬為每秒 1.8TB,大約是 H100 互連帶寬的兩倍。

          Salvatore 認(rèn)為,隨著大型語(yǔ)言模型規(guī)模的增加,即使是推理也需要多 GPU 平臺(tái)來(lái)滿足需求,而 Blackwell 就是為這種可能性而構(gòu)建的?!癇lackwell 是一個(gè)平臺(tái),”Salvator 說(shuō)。

          Nvidia 在預(yù)覽子類別中提交了他們基于 Blackwell 芯片的系統(tǒng),這意味著它尚未出售,但預(yù)計(jì)將在六個(gè)月后的下一個(gè) MLPerf 版本之前上市。

          在功耗和邊緣領(lǐng)域大放異彩

          對(duì)于每個(gè)基準(zhǔn)測(cè)試,MLPerf 還包括一個(gè)電能測(cè)量對(duì)應(yīng)物,它系統(tǒng)地測(cè)試每個(gè)系統(tǒng)在執(zhí)行任務(wù)時(shí)消耗的電能。主賽事(數(shù)據(jù)中心封閉能源類別)本輪只有兩個(gè)提交者:Nvidia 和 。雖然 Nvidia 參加了所有基準(zhǔn)測(cè)試,但 Untether 只提交了圖像識(shí)別。

          提交者

          加速器

          加速器數(shù)量

          每秒查詢數(shù)

          每秒每 Watt 的查詢數(shù)

          英偉達(dá)

          英偉達(dá) H200-SXM-141GB

          8

          480,131.00

          5,013.79

          95.76

          UntetherAI

          UntetherAI   速度AI240   Slim

          6

          309,752.00

          985.52

          314.30

          這家初創(chuàng)公司通過(guò)使用一種稱為內(nèi)存計(jì)算的方法構(gòu)建芯片,實(shí)現(xiàn)了這種令人印象深刻的效率。UntetherAI 的芯片構(gòu)建為內(nèi)存元件網(wǎng)格,小型處理器直接散布在它們旁邊。處理器是并行化的,每個(gè)處理器都與附近內(nèi)存單元中的數(shù)據(jù)同時(shí)工作,從而大大減少了在內(nèi)存和計(jì)算內(nèi)核之間來(lái)回切換模型數(shù)據(jù)所花費(fèi)的時(shí)間和精力。

          “我們看到的是,執(zhí)行 AI 工作負(fù)載的 90% 的能源只是將數(shù)據(jù)從 DRAM 移動(dòng)到緩存再到處理元件,”Untether AI 產(chǎn)品副總裁 Robert Beachler 說(shuō)?!八?Untether 所做的就是扭轉(zhuǎn)這種情況......我不是將數(shù)據(jù)移動(dòng)到計(jì)算中,而是將計(jì)算中移到數(shù)據(jù)中。

          事實(shí)證明,這種方法在 MLPerf 的另一個(gè)子類別中特別成功:邊緣閉合。Beachler 說(shuō),此類別面向更多的實(shí)際用例,例如工廠車間的機(jī)器檢查、導(dǎo)視機(jī)器人和自動(dòng)駕駛汽車,這些應(yīng)用對(duì)低能耗和快速處理至關(guān)重要。

          提交者

          GPU   類型

          GPU   數(shù)量

          單流延遲   (ms)

          多流延遲   (ms)

          采樣/秒

          聯(lián)想

          NVIDIA   L4

          2

          0.39

          0.75

          25,600.00

          聯(lián)想

          英偉達(dá) L40S

          2

          0.33

          0.53

          86,304.60

          UntetherAI

          UntetherAI   speedAI240 預(yù)覽

          2

          0.12

          0.21

          140,625.00

          在圖像識(shí)別任務(wù)上,SpeedAI240 Preview 芯片再次是唯一報(bào)告結(jié)果的 UntetherAI 芯片,其延遲性能比 NVIDIA L40S 高出 2.8 倍,其吞吐量(每秒樣本數(shù))高出 1.6 倍。這家初創(chuàng)公司也提交了該類別的強(qiáng)大結(jié)果,但他們的 Nvidia 加速競(jìng)爭(zhēng)對(duì)手沒(méi)有,因此很難進(jìn)行直接比較。然而,UntetherAI 的 speedAI240 Preview 芯片每個(gè)芯片的標(biāo)稱功耗為 150 瓦,而 Nvidia 的 L40s 為 350 瓦,導(dǎo)致標(biāo)稱功耗降低 2.3 倍,延遲得到改善。

          Cerebras、Furiosa 跳過(guò) MLPerf 但宣布推出新芯片

          圖片.png

          Furiosa 的新芯片以一種不同的、更高效的方式實(shí)現(xiàn)了 AI 推理的基本數(shù)學(xué)功能,即矩陣乘法。 FURIOSA (飛躍)

          昨天在斯坦福大學(xué)舉行的 IEEE Hot Chips 會(huì)議上,Cerebras 推出了自己的推理服務(wù)。這家位于加利福尼亞州桑尼維爾的公司生產(chǎn)硅晶片允許的巨型芯片,從而避免了芯片之間的互連,并大大增加了其設(shè)備的內(nèi)存帶寬,這些設(shè)備主要用于訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)?,F(xiàn)在,它已經(jīng)升級(jí)了其軟件堆棧,以使用其最新的計(jì)算機(jī) CS3 進(jìn)行推理。

          盡管 Cerebras 沒(méi)有提交給 MLPerf,但該公司聲稱其平臺(tái)在每秒生成的 LLM 代幣方面比 H100 高 7 倍,比競(jìng)爭(zhēng)對(duì)手的 AI 初創(chuàng)公司 Groq 的芯片高出 2 倍?!敖裉?,我們正處于 Gen AI 的撥號(hào)時(shí)代,”Cerebras 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Andrew Feldman 說(shuō)?!斑@是因?yàn)榇嬖趦?nèi)存帶寬障礙。無(wú)論是 Nvidia 的 H100 還是 MI 300 或 TPU,它們都使用相同的片外內(nèi)存,并且會(huì)產(chǎn)生相同的限制。我們突破了這一點(diǎn),我們之所以這樣做,是因?yàn)槲覀兪蔷A級(jí)的。

          Hot Chips 還看到了首爾 Furiosa 的公告,展示了他們的第二代芯片 RNGD(發(fā)音為“renegade”)。Furiosa 芯片的不同之處在于其張量收縮處理器 (TCP) 架構(gòu)。AI 工作負(fù)載中的基本操作是矩陣乘法,通常作為硬件中的基元實(shí)現(xiàn)。但是,矩陣的大小和形狀(通常稱為張量)可能會(huì)有很大差異。RNGD 將這個(gè)更廣義的版本 Tensors 的乘法實(shí)現(xiàn)為基元?!霸谕评磉^(guò)程中,批量大小差異很大,因此利用給定張量形狀的固有并行性和數(shù)據(jù)重用非常重要,”Furiosa 創(chuàng)始人兼首席執(zhí)行官 June Paik 在 Hot Chips 上說(shuō)。

          雖然沒(méi)有提交給 MLPerf,但 Furiosa 在內(nèi)部將其 RNGD 芯片的性能與 MLPerf 的 LLM 摘要基準(zhǔn)測(cè)試進(jìn)行了比較。它的性能與 Nvidia 面向邊緣的 L40S 芯片相當(dāng),而 L40S 的功率為 185 瓦,而 L40S 為 320 瓦。而且,Paik 說(shuō),隨著軟件的進(jìn)一步優(yōu)化,性能將得到提高。

          IBM 還宣布了其專為企業(yè)生成式 AI 工作負(fù)載設(shè)計(jì)的新型 Spyre 芯片,將于 2025 年第一季度上市。

          至少,在可預(yù)見(jiàn)的未來(lái),AI 推理芯片市場(chǎng)上的購(gòu)物者不會(huì)感到無(wú)聊。



          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();