兩個技術(shù),困住英偉達GPU生產(chǎn)
生成人工智能即將到來,它將改變世界。自從 ChatGPT 風靡全球并抓住了我們對 AI 可能性的想象力以來,我們看到各種各樣的公司急于訓(xùn)練 AI 模型并將生成式 AI 部署到內(nèi)部工作流程或面向客戶的應(yīng)用程序中。不僅僅是大型科技公司和初創(chuàng)公司,許多非科技財富 5000 強公司正在研究如何部署基于 LLM 的解決方案。
本文引用地址:http://www.ex-cimer.com/article/202307/448435.htm當然,這將需要大量的 GPU 計算。GPU 銷量像火箭一樣上升,供應(yīng)鏈一直在努力跟上對 GPU 的需求。公司正在爭先恐后地獲得 GPU 或云實例。
即使是 OpenAI 也無法獲得足夠的 GPU,這嚴重阻礙了其近期路線圖。由于 GPU 短缺,OpenAI 無法部署其多模態(tài)模型。由于 GPU 短缺,OpenAI 無法部署更長的序列長度模型(8k 與 32k)。
與此同時,中國公司不僅投資部署自己的 LLM,而且還在美國出口管制進一步收緊之前進行庫存。例如,Tik Tok 背后的中國公司字節(jié)跳動(Bytedance)據(jù)稱從英偉達訂購了價值超過 10 億美元的 A800 / H800。
最高端的 Nvidia GPUH100 將一直售罄到明年第一季度,盡管 Nvidia 試圖大幅增加產(chǎn)量。英偉達將每季度出貨 400,000 個 H100 GPU。
今天,我們將詳細介紹生產(chǎn)瓶頸以及英偉達及其競爭對手的下游產(chǎn)能正在擴大多少。
英偉達的 H100 采用 CoWoS-S 上的 7 芯片封裝。中間是 H100 GPU ASIC,其芯片尺寸為 814mm2。不同 SKU 之間的 HBM 配置有所不同,但 H100 SXM 版本使用 HBM3,每個堆棧為 16GB,總內(nèi)存為 80GB。H100 NVL 將具有兩個封裝,每個封裝上有 6 個 HBM 有源層。
在只有 5 個有源 HBM 的情況下,非 HBM 芯片可以為芯片提供結(jié)構(gòu)支持。這些芯片位于一個在圖片中看不清楚的硅插入物之上。該硅插入物位于一個封裝襯底上,該封裝襯底是一個 ABF 封裝襯底。
GPU 芯片和臺積電制造
英偉達 GPU 的主要數(shù)字處理組件是處理器芯片本身,在名為「4N」的定制臺積電工藝節(jié)點上制造。它在臺積電位于中國臺灣臺南的 Fab 18 制造,與臺積電 N5 和 N4 工藝節(jié)點共享相同的設(shè)施。這不是生產(chǎn)的限制因素。
臺積電 N5 工藝節(jié)點的利用率降至 70% 以下,原因是 PC、智能手機和非 AI 相關(guān)數(shù)據(jù)中心芯片的巨大疲軟,英偉達在確保額外的晶圓供應(yīng)方面沒有問題。
事實上,英偉達已經(jīng)訂購了大量用于 H100 GPU 和 NVSwitch 的晶圓,這些晶圓立即開始生產(chǎn),遠遠早于它們需要出貨芯片。這些晶圓將存放在臺積電的芯片組中,直到下游供應(yīng)鏈有足夠的能力將這些晶圓封裝成完整的芯片。
基本上,英偉達正在吸收臺積電的一些低利用率,并獲得一些定價優(yōu)勢,因為英偉達已承諾在未來購買成品。
晶圓庫,也稱為芯片庫,是半導(dǎo)體行業(yè)的一種做法,其中部分加工或完成的晶圓被存儲,直到客戶需要它們。與其他一些代工廠不同,臺積電將通過將這些晶圓保存在自己的賬簿上幾乎完全加工來幫助他們的客戶。這種做法使臺積電及其客戶能夠保持財務(wù)靈活性。由于它們只是部分加工的,因此晶圓庫中持有的晶圓不被視為成品,而是被歸類為在制品。只有當這些晶圓完全完成時,臺積電才能確認收入并將這些晶圓的所有權(quán)轉(zhuǎn)讓給客戶。
這有助于客戶裝扮他們的資產(chǎn)負債表,使庫存水平看起來得到控制。對于臺積電來說,好處是它可以幫助保持更高的利用率,從而支持利潤率。然后,當客戶需要更多的庫存時,這些晶圓可以通過幾個最后的加工步驟完全完成,然后以正常的銷售價格甚至輕微的折扣交付給客戶。這有助于客戶修飾他們的資產(chǎn)負債表,使庫存水平看起來處于控制之中。對于臺積電說,好處是可以幫助保持更高的利用率,從而支撐利潤率。然后,隨著客戶需要更多庫存,這些晶圓可以通過幾個最終加工步驟完全完成,然后以正常銷售價格甚至稍有扣的價格交付給客戶。
HBM 在數(shù)據(jù)中心的出現(xiàn)
GPU 周圍的高帶寬內(nèi)存是下一個主要組件。HBM 供應(yīng)量也有限,但正在增加。HBM 是垂直堆疊 DRAM 芯片,通過硅通孔(TSV)連接,并使用 TCB 鍵合(未來需要更高的堆疊數(shù)量)。在 DRAM 芯片下面有一個基本邏輯作為控制器的管芯。通常,現(xiàn)代 HBM 有 8 層內(nèi)存和 1 個基本邏輯芯片但是我們很快就會看到 12+1 層 HBM 的產(chǎn)品,例如 AMD 的 MI300X 和英偉達即將推出的 H100 更新。
有趣的是,是 AMD 開創(chuàng)了 HBM,盡管 NVIDIA 和谷歌是今天最大的用戶。在 2008 年,AMD 預(yù)測,為了與游戲 GPU 性能相匹配,內(nèi)存帶寬的持續(xù)擴展將需要越來越多的電源,這將需要從 GPU 邏輯中轉(zhuǎn)移,從而降低 GPU 的性能。AMD 與 SK Hynix 和供應(yīng)鏈中的其他公司 (如 Amkor) 合作,尋找一種能提供高帶寬、低功耗的內(nèi)存解決方案。這導(dǎo)致 SK Hynix 在 2013 年開發(fā) HBM。
SK 海力士于 2015 年首次為 AMD Fiji 系列游戲 GPU 提供 HBM,該 GPU 由 Amkor 進行 2.5D 封裝。隨后在 2017 年推出了使用 HBM2 的 Vega 系列。然而,HBM 并沒有改變游戲 GPU 性能的游戲規(guī)則。由于沒有明顯的性能優(yōu)勢加上更高的成本,AMD 在 Vega 之后重新使用 GDDR 作為其游戲卡。今天,來自 Nvidia 和 AMD 的頂級游戲 GPU 仍在使用更便宜的 GDDR6。
然而,AMD 的最初預(yù)測在某種程度上是正確的:擴展內(nèi)存帶寬已被證明是 GPU 的一個問題,只是這主要是數(shù)據(jù)中心 GPU 的問題。對于消費級游戲 GPU,英偉達和 AMD 已轉(zhuǎn)向使用大型緩存作為頓緩沖區(qū),使它們能夠使用帶寬低得多的 GDDR 內(nèi)存。
正如我們過去所詳述的,推理和訓(xùn)練工作負載是內(nèi)存密集型的。隨著 AI 模型中參數(shù)數(shù)量的指數(shù)級增長,僅權(quán)重就將模型大小推高到 TB。因此,人工智能加速器的性能受到從內(nèi)存中存儲和檢索訓(xùn)練和推理數(shù)據(jù)的能力的瓶頸:這個問題通常被稱為內(nèi)存墻。
為了解決這個問題,領(lǐng)先的數(shù)據(jù)中心 GPU 與高帶寬內(nèi)存(HBM)共同打包。英偉達在 2016 年發(fā)布了他們的第一個 HBM GPU,P100。HBM 通過在傳統(tǒng) DDR 內(nèi)存和片上緩存之間找到中間地帶來解決內(nèi)存難題,以容量換取帶寬。通過大幅增加引腳數(shù),達到每個 HBM 堆棧 1024 位寬的內(nèi)存總線,這是每個 DIMM 64 位寬度的 DDR5 的 18 倍,從而實現(xiàn)更高的帶寬。同時,以極低的每比特傳輸能量(pJ/bit)來控制功率。這是通過更短的走線長度實現(xiàn)的,HBM 的走線長度以毫米為單位,GDDR 和 DDR 的走線長度以厘米為單位。
如今,許多面向 HPC 的芯片公司正在享受 AMD 努力的成果。具有諷刺意味的是,AMD 的競爭對手 Nvidia 作為 HBM 的最高用戶可能受益最多。
HBM 市場:SK 海力士占據(jù)主導(dǎo)地位
作為 HBM 的先驅(qū),SK Hynix 是擁有最先進技術(shù)路線圖的領(lǐng)導(dǎo)者。SK Hynix 公司于 2022 年 6 月開始生產(chǎn) HBM 3,目前是唯一一家批量交付 HBM 3 的供應(yīng)商,市場份額超過 95%,這是大多數(shù) H 100 SKU 正在使用的產(chǎn)品。HBM 的最大配置現(xiàn)在 8 層 16 GB HBM 3 模塊。SK Hynix 為 AMD MI300X 和 NVIDIA H 100 刷新生產(chǎn) 12 層 24 GB HBM 3,其數(shù)據(jù)率為 5.6 GT/S。
HBM 的主要挑戰(zhàn)是封裝和堆疊存儲器,這是 SK 海力士所擅長的,積累了最強的工藝流程知識。
三星緊跟 SK 海力士之后,預(yù)計將在 2023 年下半年推出 HBM 3。我們相信它們都是為 NVIDIA 和 AMD GPU 設(shè)計的。他們目前對 SK Hynix 的數(shù)量有很大的虧空,但他們正緊追不舍,正在進行巨大的投資以追趕市場份額。三星正在投資追趕 HBM,成為 HBM 市場份額的第一名,就像他們擁有標準內(nèi)存一樣。我們聽說他們正在與一些加速器公司達成有利的交易,以爭取更多的份額。
他們已經(jīng)展示了他們的 12 層 HBM 以及未來的混合粘結(jié) HBM. 三星 HBM-4 路線圖的一個有趣方面是,他們希望在內(nèi)部的 FinFET 節(jié)點上實現(xiàn)邏輯/外圍。這顯示了他們在內(nèi)部擁有邏輯和 DRAM 制造的潛在優(yōu)勢
美光是最落后的。美光在混合內(nèi)存立方體(HMC)技術(shù)上投入了更多的資金。這是一個與 HBM 競爭的技術(shù),與 HBM 有著非常相似的概念。然而,HMC 周圍的生態(tài)系統(tǒng)是封閉的,使得 IP 很難在 HMC 周圍發(fā)展。此外,還存在一些技術(shù)缺陷。HBM 的采用率更高,因此 HBM 成為 3D 堆疊 DRAM 的行業(yè)標準。
直到 2018 年,美光才開始從 HMC 轉(zhuǎn)向 HBM 路線圖。這就是為什么美光是最落后的。他們?nèi)匀煌A粼?HBM2E 上(SK 海力士在 2020 年中期開始大規(guī)模生產(chǎn)),甚至不能成功地制造頂盒 HBM2E。
在他們最近的財報電話會議上,美光對他們的 HBM 路線圖做了一些大膽的聲明:他們相信他們將在 2024 年通過 HBM3E 從落后者變成領(lǐng)導(dǎo)者。HBM3E 預(yù)計將在第三季度/第四季度開始為英偉達的下一代 GPU 出貨。美光首席商務(wù)官 SumitSadana 表示:「我們的 HBM3 斜坡實際上是下一代 HBM3,與當今業(yè)界生產(chǎn)的 HBM3 相比,它具有更高水平的性能、帶寬和更低的功耗。該產(chǎn)品,即我們行業(yè)領(lǐng)先的產(chǎn)品,將從 2024 年第一季度開始銷量大幅增加,并對 2024 財年的收入產(chǎn)生重大影響,并在 2025 年大幅增加,即使是在 2024 年的水平基礎(chǔ)上。我們的目標是在 HBM 中獲得非常強勁的份額,高于行業(yè)中 DRAM 的非自然供應(yīng)份額。」
他們在 HBM 中擁有比一般 DRMA 市場份額更高的市場份額的聲明非常大膽。鑒于他們?nèi)栽谂Υ笈可a(chǎn)頂級 HBM2E,我們很難相信美光聲稱他們將在 2024 年初推出領(lǐng)先的 HBM3,甚至成為第一個 HBM3E。在我們看來,盡管英偉達 GPU 服務(wù)器的內(nèi)存容量比英特爾/AMD CPU 服務(wù)器要低得多,但美光科技似乎正在試圖改變?nèi)藗儗θ斯ぶ悄苁≌叩目捶ā?/p>
我們所有的渠道檢查都發(fā)現(xiàn) SK 海力士在新一代技術(shù)方面保持最強,而三星則非常努力地通過大幅供應(yīng)增加、大膽的路線圖和削減交易來追趕。
真正的瓶頸-CoWoS
下一個瓶頸是 CoWoS 容量。CoWoS 是臺積電的一種「2.5D」封裝技術(shù),其中多個有源硅芯片 (通常的配置是邏輯和 HBM 堆棧)集成在無源硅中介層上。中介層充當頂部有源芯片的通信層。然后將內(nèi)插器和有源硅連接到包含要放置在系統(tǒng) PCB 上的 I/O 的封裝基板。
HBM 和 CoWoS 是相輔相成的。HBM 的高焊盤數(shù)和短跡線長度要求需要 2.5D 先進封裝技術(shù),如 CoWoS,以實現(xiàn)這種密集的短連接,這在 PCB 甚至封裝基板上是無法實現(xiàn)的。CoWoS 是主流封裝技術(shù),以合理的成本提供最高的互連密度和最大的封裝尺寸。由于目前幾乎所有的 HBM 系統(tǒng)都封裝在 Co Wos 上,所有先進的人工智能加速器都使用 HBM,因此幾乎所有領(lǐng)先的數(shù)據(jù)中心 GPU 都是臺積電封裝在 Co Wos 上的。
雖然 3D 封裝技術(shù),如臺積電的 SoIC 可以直接在邏輯上堆疊芯片,但由于熱量和成本,它對 HBM 沒有意義。SoIC 在互連密度方面處于不同的數(shù)量級,更適合用芯片堆疊來擴展片內(nèi)緩存,這一點可以從 AMD 的 3D V-Cache 解決方案中看出。AMD 的 Xilinx 也是多年前將多個 FPGA 芯片組合在一起的第一批 CoWoS 用戶。
雖然還有一些其他應(yīng)用程序使用 CoWoS,例如網(wǎng)絡(luò) (其中一些用于網(wǎng)絡(luò) GPU 集群,如 Broadcom 的 Jericho3-AI)、超級計算和 FPGA,但絕大多數(shù) CoWoS 需求來自人工智能。與半導(dǎo)體供應(yīng)鏈的其他部分不同,其他主要終端市場的疲軟意味著有足夠的閑置空間來吸收 GPU 需求的巨大增長,CoWoS 和 HBM 已經(jīng)是大多數(shù)面向人工智能的技術(shù),因此所有閑置空間已在第一季度被吸收。隨著 GPU 需求的爆炸式增長,供應(yīng)鏈中的這些部分無法跟上并成為 GPU 供應(yīng)的瓶頸。
臺積電首席執(zhí)行官魏哲家表示:「就在最近這兩天,我接到一個客戶的電話,要求大幅增加后端容量,特別是在 CoWoS 中。我們?nèi)栽谠u估這一點?!?/p>
臺積電一直在為更多的封裝需求做好準備,但可能沒想到這一波生成式人工智能需求來得如此之快。6 月,臺積電宣布在竹南開設(shè)先進后端晶圓廠 6。該晶圓廠占地 14.3 公頃足以容納每年 100 萬片晶圓的 3DFabric 產(chǎn)能。這不僅包括 CoWoS,還包括 SoIC 和 InFO 技術(shù)。
有趣的是,該工廠比臺積電其他封裝工廠的總和還要大。雖然這只是潔凈室空間,遠未配備齊全的工具來實際提供如此大的容量,但很明顯,臺積電正在做好準備,預(yù)計對其先進封裝解決方案的需求會增加。
確實有點幫助的是,在 Wafer 級別的扇出封裝能力 (主要用于智能手機 SoC) 方面存在不足,其中一些可以在 CoWoS 過程中重新使用。特別是有一些重疊的過程,如沉積,電鍍,反磨,成型,放置,和 RDL 形成。我們將通過 CoWoS 流程和所有的公司誰看到了積極的需求,因為它在一個后續(xù)部分。設(shè)備供應(yīng)鏈中存在著有意義的轉(zhuǎn)變。
還有來自英特爾、三星和 OSAT 的其他 2.5D 封裝技術(shù) (如 ASE 的 FOEB),CoWoS 是唯一在大容量中使用的技術(shù),因為 TSMC 是人工智能加速器的最主要的晶圓廠。甚至英特爾哈巴納的加速器都是由臺積電制造和封裝的。
CoWoS 變體
CoWoS 有幾種變體,但原始 CoWoS-S 仍然是大批量生產(chǎn)中的唯一配置。這是如上所述的經(jīng)典配置:邏輯芯片+HBM 芯片通過帶有 TSV 的硅基中介層連接。然后將中介層放置在有機封裝基板上。
硅中介層的一項支持技術(shù)是一種稱為「掩模版縫合」的技術(shù)。由于光刻工具狹縫/掃描最大尺寸,芯片的最大尺寸通常為 26mmx33mm。隨著 GPU 芯片本身接近這一極限,并且還需要在其周圍安裝 HBM,中介層需要很大,并且將遠遠超出這一標線極限。臺積電解決了這與網(wǎng)線拼接,這使他們的模式插入式多次的刻線限制 (目前最高 3.5 倍與 AMD MI 300)。
CoWOS-R 使用在具有再分布層(RDL)的有機襯底上,而不是硅中間層。這是一個成本較低的變體,犧牲的 I/O 密度,由于使用有機 RDL,而不是基于硅的插入物。正如我們已經(jīng)詳細介紹的,AMD 的 MI300 最初是在 CoWoS-R 上設(shè)計的,但我們認為,由于翹曲和熱穩(wěn)定性問題,AMD 不得不使用 CoWoS-S。
CoWoS-L 預(yù)計將在今年晚些時候推出,它采用 RDL 內(nèi)插器,但包含有源和/或無源硅橋,用于嵌入內(nèi)插器中的管芯到管芯互連。這是臺積電的相當于英特爾的 EMIB 封裝技術(shù)。這將允許更大的封裝尺寸,因為硅插入物越來越難以擴展。MI300 Co WO S-S 可能是一個單一的硅插入器的限制附近。
這將是更經(jīng)濟的更大的設(shè)計去與 CoWoS-L 臺積電正在研究一個 CoWoS-L 的超級載波內(nèi)插器在 6 倍分劃板的大小。對于 CoWOS-S,他們沒有提到 4x reticle 之外的任何內(nèi)容。這是因為硅插入物的脆弱性。這種硅中間層只有 100 微米厚,在工藝流程中,隨著中間層尺寸的增大,存在分層或開裂的風險。
評論