要打破內存墻，可以將HBM與DDR5融合

作者：nextplatfor時間：2024-04-08來源：半導體產業縱橫收藏

在 2024 年，如果需要將數十個、數百個、數千個甚至數萬個加速器拼接在一起，那么互連就是個大課題了。

本文引用地址：http://www.ex-cimer.com/article/202404/457233.htm

英偉達（Nvidia）擁有 NVLink 和 InfiniBand。Google 的 TPU 吊艙使用光電路開關（OCS）相互通信。AMD 擁有 Infinity Fabric，用于芯片到芯片、芯片到芯片以及即將推出的節點到節點流量。當然，還有好的老式以太網。

這里的訣竅不是構建足夠大的網格，而是抵御與離包相關的大量性能損失和帶寬瓶頸。它也沒有做任何事情來解決這樣一個事實，即所有這些 AI 處理所依賴的 HBM 內存都以固定的比例與計算相關聯。

「這個行業正在使用 Nvidia GPU 作為世界上最昂貴的內存控制器，」Dave Lazovsky 說，他的公司 Celestial AI 剛剛在 USIT 和許多其他風險投資巨頭支持的 C 輪融資中獲得了 1.75 億美元，以將其光子織物商業化。

去年夏天，我們研究了 Celestial 的光子結構，其中包括一系列硅光子學互連器、中介層和小芯片，旨在將 AI 計算從內存中分解出來。不到一年后，他們正在與幾家超大規?？蛻艉鸵患掖笮吞幚砥髦圃焐毯献?，將其技術集成到他們的產品中。Lazovsky 沒有指名道姓。

但事實上，Celestial 將 AMD Ventures 視為其支持者之一，其高級副總裁兼產品技術架構師 Sam Naffziger 在公告發布的同一天討論了共同封裝硅光子小芯片的可能性，這無疑引起了一些人的注意。話雖如此，AMD 為光子學初創公司提供資金并不意味著我們將永遠在 Epyc CPU 或 Instinct GPU 加速器中看到 Celestial 的小芯片。

雖然 Lazovsky 無法透露 Celestial 與誰合作，但他確實提供了一些關于該技術如何集成的線索，以及即將推出的 HBM 內存設備的先睹為快。

正如我們在最初涉足 Celestial 的產品戰略時所討論的那樣，該公司的零件分為三大類：小芯片、中介層和英特爾 EMIB 或臺積電 CoWoS 的光學旋轉，稱為 OMIB。

不出所料，Celestial 的大部分吸引力都集中在小芯片上?！肝覀儧]有做的是試圖強迫我們的客戶采用任何一種特定的產品實施。目前，為光子結構提供接口的風險最低、最快、最不復雜的方法是通過小芯片，「Lazovsky 告訴 The Next Platform。

從廣義上講，這些小芯片可以以兩種方式使用：要么增加額外的 HBM 內存容量，要么作為芯片到芯片的互連，分類或類似于光學 NVLink 或 Infinity Fabric。

這些小芯片比 HBM 堆棧小一點，提供光電互連，片外總帶寬為 14.4 Tb/s 或 1.8 GB/s。

話雖如此，我們被告知可以制造一個小芯片來支持更高的帶寬。第一代技術可以支持每平方毫米約 1.8 Tb/s 的速度。與此同時，Celestial 的第二代 Photonic 結構將從 56 Gb/s 提高到 112 Gb/s 的 PAM4 SerDes，并將通道數量從 4 個增加到 8 個，從而有效地將帶寬翻兩番。

因此，14.4 Tb/s 不是上限，而是現有芯片架構能夠處理的結果。這是有道理的，否則任何額外的容量都會被浪費。

這種連接性意味著 Celestial 可以實現類似于 NVLink 的互連速度，只是沿途的步驟更少。

雖然芯片到芯片的連接相對不言自明——在每個封裝上放一個光子織物小芯片并對齊光纖連接——但內存擴展完全是另一種動物。雖然 14.4 Tb/s 的速度并不慢，但對于多個 HBM3 或 HBM3e 堆棧來說，它仍然是一個瓶頸。這意味著添加更多的 HBM 只會讓您的容量超過某個點。盡管如此，用兩個 HBM3e 堆棧代替一個堆棧并不算什么。

Celestial 有一個有趣的解決方法，即它的內存擴展模塊。由于帶寬的上限為 1.8 GB/s，因此該模塊將僅包含兩個總計 72 GB 的 HBM 堆棧。此外，還將配備一組 4 個 DDR5 DIMM，支持高達 2 TB 的額外容量。

Lazovsky 不愿將所有豆子都灑在產品上，但確實告訴我們，它將使用 Celestial 的硅光子學中介層技術作為 HBM，互連和控制器邏輯之間的接口。

說到模塊的控制器，我們被告知 5nm 開關 ASIC 有效地將 HBM 變成 DDR5 的直寫緩存?！杆鼮槟峁┝?DDR 的容量和成本以及帶寬和 HBM 互連的 32 個偽通道的所有優勢，從而隱藏了延遲，」Lazovsky 解釋道。

他補充說，這與英特爾對至強 Max 所做的或英偉達對其 GH200 超級芯片所做的事情相去不遠?！杆旧鲜且粋€增壓的 Grace-Hopper，沒有所有的成本開銷，而且效率更高?！?/p>

效率提高多少？「我們的內存事務能量開銷約為每比特 6.2 皮焦耳，而通過 NVLink、NVSwitch 進行遠程內存事務的開銷約為 62.5 皮焦耳，」Lazovsky 稱，并補充說延遲也不高。

「這些遠程內存事務的總往返延遲，包括通過光子結構的兩次旅行和內存讀取時間，為 120 納秒，」他補充道：「因此，它將比大約 80 納秒的本地內存多一點，但它比去 Grace 并讀取參數并將其拉到 Hopper 要快?！?/p>

據我們了解，這些內存模塊中的 16 個可以嚙合并為一個內存交換機，并且可以使用光纖隨機播放連接多個這些設備。

這意味著，除了計算、存儲和管理網絡之外，使用 Celestial 互連構建的芯片不僅能夠相互連接，而且能夠共享內存池。

「這允許你以一種非常非常有效的方式進行機器學習操作，例如廣播和減少，而無需切換，」Lazovsky 說。

Celestial 面臨的挑戰是時機。Lazovsky 告訴我們，他預計將在 2025 年下半年的某個時候開始向客戶提供光子織物小芯片的樣品。然后，他預計至少還需要一年時間，我們才能看到使用該設計的產品投放市場，并在 2027 年實現銷量增長。

然而，Celestial 并不是唯一一家追求硅光子學的初創公司。另一家獲得英特爾投資支持的光子學初創公司 Ayar Labs 已經將其光子學互連集成到原型加速器中。

然后是 Lightmatter，它在去年 12 月獲得了 1.55 億美元的 C 輪融資，并試圖通過其 Passage 中介層做一些與 Celestial 非常相似的事情。當時，Lightmatter 首席執行官尼克·哈里斯（Nick Harris）聲稱，它有客戶使用 Passage 來「擴展到 300,000 臺節點的超級計算機」。當然，和拉佐夫斯基一樣，哈里斯也不會告訴我們它的客戶是誰。

還有 Eliyan，它正試圖通過其 NuLink PHY 完全擺脫中介層——或者如果你必須擁有它們，可以提高中介層的性能和規模。

無論誰在這場競賽中脫穎而出，向共封裝光學器件和硅光子中介層的轉變似乎只是時間問題。