AMD推出Instinct MI300X GPU和MI300A APU,比英偉達H100領先1.6倍
D 在加利福尼亞州圣何塞舉行的 Advancing AI 活動期間推出了 Instinct MI300X AI 加速器和 Instinct MI300A(全球首款數據中心 APU),希望可以充分利用蓬勃發展的生成式 AI 和 HPC 市場。AMD 使用最先進生產技術打造了 MI300 系列,并采用「3.5D」封裝等新技術來生產兩款芯片,據稱這兩款產品在各種人工智能工作負載中提供了超越英偉達的性能。AMD 并未透露其新芯片的定價,但這些產品目前正在向眾多 OEM 合作伙伴發貨。
本文引用地址:http://www.ex-cimer.com/article/202312/454086.htmInstinct MI300 是一種改變游戲規則的設計:數據中心 APU 混合了總共 13 個小芯片,其中許多是 3D 堆疊的,以創建一個具有 24 個 Zen 4 CPU 內核并融合了 CDNA 3 圖形引擎和 8 個堆棧的芯片 HBM3??傮w而言,該芯片擁有 1530 億個晶體管,是 AMD 迄今為止制造的最大芯片。AMD 聲稱該芯片在某些工作負載中的性能比英偉達 H100 GPU 高出 4 倍,并宣稱其每瓦性能是其兩倍。
AMD 表示,其 Instinct MI300X GPU 在人工智能推理工作負載中的性能比英偉達 H100 高出 1.6 倍,并在訓練工作中提供類似的性能,從而為業界提供了急需的英偉達 GPU 的高性能替代品。此外,這些加速器的 HBM3 內存容量是英偉達 GPU 的兩倍以上(每個 192 GB 令人難以置信),使其 MI300X 平臺能夠支持每個系統兩倍以上的 LLM 數量,并運行比英偉達 H100 HGX 更大的模型。
AMD Instinct MI300X
MI300X 代表了 AMD 基于小芯片的設計方法的頂峰,將八個 12Hi 堆棧的 HBM3 內存與八個 3D 堆棧的 5nm CDNA 3 GPU 小芯片(稱為 XCD)融合在四個底層 6nm I/O 芯片上,這些芯片使用 AMD 現已成熟的技術進行連接混合鍵合技術。
來源:AMD
來源:AMD
其結果是一個 750W 加速器,擁有 304 個計算單元、192GB HBM3 容量和 5.3 TB/s 帶寬。該加速器還具有 256MB Infinity Cache,用作共享 L3 緩存層,以促進小芯片之間的通信。AMD 將其將小芯片綁定在一起的封裝技術稱為「3.5D」,表示 3D 堆疊 GPU 和 I/O 芯片通過混合鍵合融合在一起,并與模塊其余部分的標準 2.5D 封裝(水平連接)相結合。我們將更深入地研究下面的架構組件。
MI300X 加速器設計為在 AMD 的生成式 AI 平臺中以八組為一組工作,通過 Infinity Fabric 互連的 GPU 之間的吞吐量為 896 GB/s。該系統擁有 1.5TB 的 HBM3 內存總量,可提供高達 10.4 Petaflops 的性能 (BF16/FP16)。該系統基于開放計算項目 (OCP) 通用基板 (UBB) 設計標準構建,從而簡化了采用過程,特別是對于超大規模企業。
與英偉達的 H100 HGX 平臺 (BF16/FP16) 相比,AMD 的 MI300X 平臺的內存容量增加了 2.4 倍,計算能力據稱提高了 1.3 倍,同時保持了相當的聚合雙向和單節點環形帶寬。AMD 為 MI300X 平臺配備了 400GbE 網絡并支持多種網卡,而英偉達則傾向于使用自己收購 Mellanox 后的網絡產品。
一如既往,我們應該謹慎對待供應商基準。AMD 分享了一系列性能指標,顯示其針對 HPC 工作負載的 FP64 和 FP32 向量矩陣峰值理論吞吐量高達 H100 的 2.4 倍,TF32、FP16、BF16、FP8 和 INT8 峰值理論吞吐量高達 1.3 倍對于 AI 工作負載,所有預測都沒有稀疏性(不過 MI300X 確實支持稀疏性)。
MI300X 的大內存容量和帶寬非常適合推理。AMD 使用 1760 億參數的 Flash Attention 2 模型聲稱在吞吐量方面比英偉達 H100 具有 1.6 倍的性能優勢,并使用 700 億參數的 Llama 2 模型來強調 1.4 倍的聊天延遲優勢(從 2K 序列長度/128 個令牌工作負載的開始到結束)。
AMD 的 MI300X 平臺在 300 億參數 MPT 訓練工作負載中提供的性能與 H100 HGX 系統大致相同,但需要注意的是,此測試并不是加速器的一對一比較。相反,該測試讓八個加速器組相互競爭,因此平臺級功能更像是一個限制因素。無論哪種情況,這種性能都會很快引起受到英偉達 GPU 短缺困擾的行業的興趣。
說到平臺能力,AMD 還聲稱 MI300X 平臺的內存容量優勢可以容納比 H100 系統多兩倍的 30B 參數訓練模型和 70B 參數推理模型。此外,MI300X 平臺最多可支持 70B 訓練和 290B 參數推理模型,這兩個模型都是 H100 HGX 支持的模型的兩倍。
當然,英偉達即將推出的 H200 GPU 在內存容量和帶寬方面將更具競爭力,而計算性能將與現有的 H100 保持相似。英偉達要到明年才會開始發貨 H200,因此與 MI300X 的競爭仍然存在。
AMD 本能 MI300A
AMD Instinct MI300A 是全球首款數據中心 APU,這意味著它將 CPU 和 GPU 結合在同一個封裝中。它將直接與英偉達的 Grace Hopper Superchips 競爭,后者的 CPU 和 GPU 位于單獨的芯片封裝中,可以協同工作。MI300A 已經在 El Capitan 超級計算機中取得了顯著的勝利,AMD 已經將該芯片運送給其合作伙伴。
MI300A 使用與 MI300X 相同的基本設計和方法,但替換為三個 5nm 核心計算芯片 (CCD),每個核心具有八個 Zen 4 CPU 核心,與 EPYC 和 Ryzen 處理器上的相同,從而取代了兩個 XCD GPU 小芯片。
這使得 MI300A 配備了 24 個線程 CPU 內核和分布在 6 個 XCD GPU 小芯片上的 228 個 CDNA 3 計算單元。與 MI300X 一樣,所有計算小芯片均采用混合鍵合方式與四個底層 I/O 芯片 (IOD) 進行 3D 堆疊,以實現遠超標準芯片封裝技術所能實現的帶寬、延遲和能源效率。
AMD 通過使用 8 個 8Hi HBM3 堆棧(而不是 MI300X 中使用的 8 個 12Hi 堆棧)來削減內存容量,從而將容量從 192GB 削減至 128GB。然而,內存帶寬仍為 5.3 TB/s。AMD 表示,減少內存容量的決定并不是由于功率或熱量限制;相反,它針對目標 HPC 和 AI 工作負載定制芯片。無論如何,128GB 的容量和 5.3 TB/s 的吞吐量仍然是英偉達 H100 SXM GPU 提供的 1.6 倍。
MI300A 的默認 TDP 為 350W,但可配置為最高 760W。AMD 根據使用情況在芯片的 CPU 和 GPU 部分之間動態分配功率,從而優化性能和效率。AMD 盡可能巧妙地重復利用:MI300A 插入 AMD 的標準 LGA6096 插槽,就像 EPYC Genoa 處理器一樣,但該插槽的 SH5 版本與使用 SP5 的 AMD EPYC 處理器在電氣上不兼容。
內存空間在 CPU 和 GPU 之間共享,從而消除了數據傳輸。該技術通過消除單元之間的數據傳輸來提高性能和能源效率,同時還減少編碼負擔。與 MI300X 一樣,該芯片具有中央 256MB 無限緩存,有助于確保流經芯片的數據的帶寬和延遲。
AMD 聲稱 FP64 Matrix/DGEMM 和 FP64/FP32 Vector TFLOPS 比 H100 高出 1.8 倍。該公司還聲稱 TF32、FP16、BF16、FP8 和 INT8 與 H100 相同。
AMD 聲稱,在 OpenFOAM HPC 測試中,其 MI300A 比英偉達的 H100 快 4 倍,但這種比較并不理想:H100 是 GPU,而 MI300A 中的混合 CPU 和 GPU 計算在這種內存密集型中提供了固有的優勢,有時是串行工作負載,通過其共享內存尋址空間。與英偉達 Grace Hopper GH200 Superchip 進行比較會更好,后者也將 CPU 和 GPU 以緊密耦合的方式結合在一起,但 AMD 表示,它找不到任何公開列出的英偉達 GH200 的 OpenFOAM 結果。
AMD 確實提供了與英偉達 GH200 的每瓦性能比較數據,以強調 2 倍的優勢,這些結果基于有關 H200 的公開信息。AMD 還強調了與 H100 在 Mini-Nbody、HPCG 和 Gromacs 基準測試中的比較,聲稱分別領先 1.2 倍、1.1 倍和 1.1 倍。同樣,對于這組基準測試,與 GH200 進行比較會更理想。
AMD Instinct MI300X 和 MI300A 架構
我們介紹了上面設計的基礎知識,這些細節為理解下面的部分提供了重要的視角。
AMD 利用臺積電的 3D 混合鍵合 SoIC(集成電路上硅)技術,在四個底層 I/O 芯片之上對各種計算元件進行 3D 堆疊,無論是 CPU CCD(核心計算芯片)還是 GPU XCD。每個 I/O 芯片可以容納兩個 XCD 或三個 CCD。每個 CCD 與現有 EPYC 芯片中使用的 CCD 相同,每個 CCD 擁有八個超線程 Zen 4 核心。MI300A 使用了其中的三個 CCD 和六個 XCD,而 MI300X 使用了八個 XCD。
HBM 堆棧使用采用 2.5D 封裝技術的標準中介層進行連接。AMD 將 2.5D 和 3D 封裝技術相結合,使該公司創造了「3.5D」封裝的綽號。每個 I/O 芯片都包含一個 32 通道 HBM3 內存控制器,用于托管 8 個 HBM 堆棧中的兩個,從而為該設備提供了總共 128 個 16 位內存通道。MI300X 采用 12Hi HBM3 堆棧,容量為 192GB,而 MI300A 使用 8Hi 堆棧,容量為 128GB。
AMD 還增加了 256MB 的無限緩存總容量,分布在所有四個 I/O 芯片上,通過預取器緩存數據流量,從而提高命中率和電源效率,同時減少總線延遲。這為 CPU 增加了新級別的緩存(概念上是共享 L4),同時為 GPU 提供共享 L3 緩存。Infinity Fabric NoC(片上網絡)被稱為 AMD Infinity Fabric AP(高級封裝)互連,用于連接 HBM、I/O 子系統和計算。
該芯片總共具有 128 個 PCIe 5.0 連接通道,分布在四個 I/O 芯片上。它們被分為兩組:一組是四個 x16 PCIe 5.0 + 第四代 Infinity Fabric 鏈路的組合,而另一組則有四個專門用于 Infinity Fabric 的 x16 鏈路。后者僅用于將 MI300 相互連接(跨套接字流量)。
MI300X 純粹用作端點設備,它連接到外部 CPU。相比之下,MI300A 由于其本機 CPU 內核而采用自托管,因此 PCIe 根復合體必須充當主機。為了適應這兩種場景,AMD 定制的 MI300 I/O 芯片支持來自同一 PCIe 5.0 根復合體的兩種模式,該根復合體是該公司 IP 產品組合的新成員。
AMD 的 CPU CCD 通過 3D 混合鍵合到底層 I/O 芯片,需要新的接口。雖然這與 EPYC 服務器處理器中的 CCD 相同,但這些芯片通過利用標準 2.5D 封裝的 GMI3(全局內存互連 3)接口進行通信。對于 MI300,AMD 添加了一個新的焊盤通孔接口,可繞過 GMI3 鏈路,從而提供垂直堆疊芯片所需的 TSV(通過硅通孔)。該接口在雙鏈路寬模式下運行。
5nm XCD GPU 芯片標志著 AMD GPU 設計的全面芯片化。與 MI200 中使用的小芯片表現為兩個獨立的設備不同,MI300 小芯片表現為一個單片 GPU。
每個 XCD 有 40 個物理 CDNA3 計算單元,但只有 38 個被激活(這有助于解決良率問題)。每個 38-CU 小芯片都有 4MB 共享 L2 (16x 256KB)。XCD 和 IOD 具有硬件輔助機制,可將作業分解為更小的部分、分派它們并保持它們同步,從而減少主機系統開銷。這些單元還具有硬件輔助的緩存一致性。
每個 I/O 芯片上連接有兩個 XCD,然后連接到兩個 HBM3 堆棧。這允許 GPU 與兩個連接的堆棧進行私密通信,以緩解帶寬、延遲和一致性問題。然而,每個 XCD 都可以與任何內存堆棧通信。
當然,尋址遠程堆棧會帶來延遲損失。內存事務傳輸得越遠,就會產生越長的延遲。AMD 指出,直接連接到 IOD 和 XCD 的 HBM 是零跳事務,而訪問 IOD 上的不同內存堆棧是兩跳跳轉。最后,訪問相鄰 IOD 上的內存堆棧是三跳跳轉。兩跳跳躍的代價是延遲增加大約 30%,而三跳跳躍則增加 60% 的延遲。
幻燈片顯示了 NoC 的可用帶寬,封裝垂直部分的 I/O 芯片之間的帶寬為 1.2 TB/s/dir,而水平數據路徑提供的帶寬略多,為 1.5 TB/s/dir。帶寬,以幫助容納來自 I/O 設備的額外流量,從而允許 I/O 流量與內存流量分開處理。封裝右側和左側的 PCIe 復合體為每個 I/O 芯片提供 64 GB/s/dir 的吞吐量。在包的頂部和底部,您可以看到每個 HBM 堆棧提供 665 GB/s 的吞吐量。
AMD 有多種分區方案,可將計算單元劃分為不同的邏輯域,就像 EPYC 處理器的 NPS 設置一樣。這允許將不同的 XCD 分成不同的組以優化帶寬,從而最大限度地提高性能并限制「NUMAness」的影響。多種配置范圍從將單元尋址為一個邏輯設備到將它們尋址為八個不同的設備,以及多種中間選項,為各種工作負載提供了足夠的靈活性。
AMD 確定 3D 混合鍵合 (SoIC) 是在計算單元和 I/O 芯片之間提供足夠帶寬的唯一現實途徑。公司在該技術方面擁有豐富的經驗;它已經應用于數百萬個配備 3D V-Cache 的 PC 處理器中。
該公司在這種現已成熟的混合鍵合技術方面積累的長期經驗使其有信心在 MI300 處理器中繼續采用該技術。與由 3D V-Cache 和標準型號組成的 AMD 消費類 PC 芯片系列相比,MI300 處理器代表該公司首次在整個產品堆棧中完全依賴該技術。
總體而言,SoC 連接可在各種 3D 堆疊單元中提供高達 17 TB/s 的垂直帶寬。SoIC 尺寸為 13x29mm。
最后一張幻燈片中的剖面圖展示了 3.5D 包裝方法的復雜性和美麗。它說明了如何從底部使用有機基板、上方具有金屬布線和 TSV 的 CoWos 無源硅中介層,以及采用混合鍵合(9 微米間距)的 3D 堆疊 IOD 和 XCD 來構建封裝。將有機基板與硅中介層(底部)配合的巨大銅凸塊突出了 3D 堆疊部分的頂部和底部芯片(靠近頂部)之間幾乎不可見的混合鍵合連接是多么小和密集。
混合鍵合技術需要減薄芯片以暴露 TSV,以便它們可以配對。因此,AMD 必須在封裝頂部采用硅墊片以保持結構完整性,就像其他配備 3D V-Cache 的處理器一樣。
AMD 高級副總裁、AMD 公司院士兼產品技術架構師 Sam Naffziger 向我們介紹了團隊在設計階段遇到的一些挑戰。
巧妙的 IP 重用一直是 AMD 小芯片戰略的基石,MI300 也不例外。MI300 團隊沒有資源為 MI300 構建全新的 CPU CCD,因此他們要求該公司的 CCD 團隊在設計階段的早期將 3D 接口 (TSV) 添加到 EPYC CCD。令人驚訝的是,工程團隊找到了一種將連接塞入現有 GMI 接口之間的方法。
在第一張幻燈片中,您可以看到兩個小藍點代表 TSV 的總面積,而點兩側的大橙色矩形塊是用于 2.5D 封裝的標準 GMI3 接口。這說明了 SoIC 技術的密度和面積效率是多么令人難以置信。AMD 還添加了一些門、開關和多路復用器,以允許信號從 GMI3 接口重新路由到 3D 接口。
AMD 創建了 I/O 芯片的鏡像版本,以確保它們可以旋轉到正確的位置,同時確保 XCD 中的內存控制器和其他接口仍然正確對齊。工程團隊對稱地設計了接口/信號和電源連接,從而允許小芯片旋轉,如第二張圖所示。
然而,雖然 AMD 專門為 MI300 從頭開始設計了 I/O 芯片,但該團隊必須采用 EPYC 的現有 CCD 設計。他們不想為 CCD 創建鏡面掩模組,這在此類設計中通常是必需的,以確保正確的接口對齊,因為這會增加設計的成本和復雜性。然而,其中兩個 CCD 需要旋轉 180 度才能確保正確對齊。然而,CCD 的外部接口設計不對稱,因此帶來了挑戰。
如幻燈片所示,AMD 通過在 I/O 芯片上的鍵合焊盤通孔 (BPV) 連接點添加一些冗余來克服這一挑戰,從而允許 CCD 僅旋轉而不是鏡像。
不過,電力輸送仍然是一個挑戰。TSV 是非常小的銅插頭,AMD 需要為位于 I/O 芯片頂部的計算芯片提供數百安培的電源。細小的 TSV 不太適合這項工作,因此它們需要大量的連接來供電。AMD 設計了一種新的電網來克服這個問題,它滿足了 IR 壓降目標,并且沒有超過電流密度限制。
最后,由于 3D 堆疊設計,該設計提出了一些新的熱挑戰。通過熱建模,AMD 確定了兩種類型的極端操作條件:內存密集型和 GPU 密集型。然后利用其基于使用模式在單元之間動態轉移功率的行之有效的策略來幫助緩解這些問題。
因此,一個令人難以置信的處理器誕生了。AMD 的 MI300 在相當長的一段時間內對英偉達在 AI 和 HPC 工作負載方面的性能主導地位提出了第一次真正的挑戰,AMD 堅稱自己有能力滿足需求。在 GPU 短缺的時代,這是一種競爭優勢,并且肯定會刺激行業的快速發展。AMD 現在正在向其合作伙伴運送 MI300 處理器。
評論