自研AI服務器芯片,競爭升級
有越來越多的互聯(lián)網(wǎng)和 IT 設備大廠開始自研 AI 服務器芯片,最近,這一風潮吹到了蘋果公司,據(jù)悉,該智能設備龍頭正在開發(fā)用于 AI 服務器的定制芯片。
本文引用地址:http://www.ex-cimer.com/article/202404/458241.htm與微軟和谷歌等競爭對手相比,蘋果在推出生成式 AI 方面進展較慢,不過,蘋果公司 CEO 庫克稱,AI 已經(jīng)在蘋果產(chǎn)品的幕后發(fā)揮作用,此前有媒體報道,蘋果計劃使用 AI 來提高搜索存儲在蘋果設備上的數(shù)據(jù)的能力。
今年 2 月,庫克在年度股東大會上表示,使用蘋果 AI 技術(shù)的功能包括 Vision Pro 的手部跟蹤工具和 Apple Watch 的心率警報。他還表示,MacBook 中的芯片能夠運行 AI。
庫克表示,今年晚些時候,將與大家分享如何在生成式 AI 領域開辟新天地。蘋果公司通常在 6 月份的年度開發(fā)者大會上宣布新的軟件產(chǎn)品和功能。
知名分析師郭明錤在 2023 年 10 月發(fā)布的一份報告顯示,預計蘋果在 2023 和 2024 年分別采購 2000–3000 臺、1.8 萬–2 萬臺 AI 服務器,分別占同期全球 AI 服務器出貨量的 1.3% 和 5%。估算蘋果在 2023 和 2024 年需要分別支出約 6.2 億和 47.5 億美元,用于 AI 服務器采購。
基于蘋果產(chǎn)品的功能需求,以及龐大的 AI 服務器資本支出,再結(jié)合該公司自研芯片的歷史,相信其自研 AI 服務器芯片是早晚的事,特別是蘋果放棄造車,將資金和資源重點投入到 AI 技術(shù)和產(chǎn)品研發(fā)上,自研 AI 服務器芯片就更加順理成章了。
AI 服務器芯片的重要性
據(jù)統(tǒng)計,2024 年,全球服務器出貨量約 1365.4 萬臺,其中,各家 ODM 的出貨以 AI 服務器最為強勁。分析師指出,2024 年,AI 服務器出貨年增長率和占比都將達到兩位數(shù),這主要得益于生成式 AI 市場的增長。
預計生成式 AI 市場規(guī)模將從 2022 年的 400 億美元增長到 2032 年的 1.3 萬億美元,年復合增長率高達 41.7%。由于全球生成式 AI 市場商機與增長潛力巨大,對訓練 AI 系統(tǒng)的軟硬件需求量很大,使得市場對 AI 服務器及相關芯片的需求不斷增長。
AI 大模型迭代速度越來越快,廠商對智能算力的投入大幅增加,支持存儲和訓練的高端 AI 服務器的需求激增,2023 和 2024 年,大模型訓練所需數(shù)據(jù)量激增,AI 大模型廠商需要的是能夠支持存儲和訓練的高端 AI 服務器,因此,各服務器廠商都在升級芯片規(guī)格、擴大卡組數(shù)量。
與傳統(tǒng)服務器相比,AI 服務器在多個方面有所不同。硬件方面,AI 服務器采用異構(gòu)形式,內(nèi)存容量更大,可滿足不同場景需求;卡的數(shù)量方面,由于 AI 服務器需要大量計算,至少配置 4 個 GPU 卡,有的需要 8 個;系統(tǒng)結(jié)構(gòu)方面,AI 服務器在散熱、拓撲等方面進行了專門設計,以實現(xiàn)穩(wěn)定運行。
自研 AI 服務器芯片熱潮
根據(jù)應用場景不同,AI 服務器可分為深度學習訓練型和智能應用推理型;根據(jù)計算模塊結(jié)構(gòu)不同,AI 服務器可分為 CPU+GPU、CPU+ASIC、CPU+FPGA 等,其中,最常見的是 CPU+多塊 GPU 組合模式。
雖然 AI 服務器計算系統(tǒng)主要由 CPU 和 GPU 組成,但就目前而言,GPU 占據(jù)了較大市場份額,CPU 份額相對較小。在這種情況下,GPU 廠商的行業(yè)地位就很凸出了。然而,雖然市場很大,但能夠提供高性能 GPU 的廠商卻很少,目前,能夠形成一定市場規(guī)模的廠商只有 3 家:英偉達,AMD 和英特爾。
基于這種市場供求關系,對 AI 服務器具有很大需求量的互聯(lián)網(wǎng)和 IT 設備大廠紛紛開始自研相關芯片,如亞馬遜 AWS,谷歌,Meta,微軟和蘋果。
亞馬遜 AWS 自研芯片始于 2015 年,當時收購了 Annapurna Labs,2018 年,AWS 推出了基于 Arm 架構(gòu)的 Graviton 處理器,這是其首款自研服務器芯片。2020 年,AWS 發(fā)布了 Graviton2。2023 年 12 月,AWS 推出了 Graviton4 和 Trainium2,Graviton4 的性能比 Graviton2 提升了 30%,Trainium2 在 AI 訓練速度上提升了 4 倍。
2016 年,谷歌推出了自研的 AI 張量處理單元(TPU),這些專為機器學習設計的芯片為谷歌云平臺上提供了 AI 加速能力,2022 年前后,谷歌開始研發(fā)基于 Arm 架構(gòu)的服務器 CPU,2024 年 4 月,谷歌發(fā)布了首款自研 Arm 構(gòu)架 CPU——Axion,并宣布該芯片已經(jīng)在內(nèi)部使用。
2020 年,微軟開始為其 Azure 云服務定制芯片,2023 年 11 月,微軟推出了兩款自研芯片——Maia100 和 Cobalt100。Maia100 是一款專為大語言模型訓練和推理而設計的芯片,采用臺積電 5nm 制程,Cobalt100 是一款基于 Arm 架構(gòu)的 128 核服務器 CPU。
今年 4 月初,Meta 發(fā)布了新一代 AI 訓練和推理加速器 MTIA,其計算和內(nèi)存帶寬是上一代產(chǎn)品的兩倍多,最新版本芯片有助于驅(qū)動 Facebook 和 Instagram 上的排名和推薦廣告模型。
自研 AI 芯片的好處
互聯(lián)網(wǎng)和 IT 設備大廠自研 AI 芯片的核心動機是降低成本。當然,自研芯片的前提是自身有很大的需求量,否則自研沒有意義。這些大廠的巨量規(guī)模能夠分攤芯片研發(fā)成本,隨著產(chǎn)量的增加,單位芯片的成本會降低。通過自研,這些大廠可以直接控制芯片的設計和生產(chǎn)成本,從而減少對外部供應商的依賴。這種成本控制能力使它們能夠更有效地管理運營支出,提高整體利潤率。自研芯片還可以優(yōu)化供應鏈管理,減少中間環(huán)節(jié),從而降低采購成本和物流成本。此外,自研芯片可以根據(jù)云服務的具體需求進行定制,避免不必要的功能和性能過剩,進一步降低生產(chǎn)成本。
通過自研芯片,這些大廠能夠掌握更多的議價權(quán)和定價權(quán),避免成為英特爾、英偉達等傳統(tǒng)芯片商的「打工仔」。這不僅有助于提升利潤空間,還能夠在價格競爭中保持靈活性,根據(jù)市場情況調(diào)整定價策略。
自研芯片還可以幫助這些大廠完善軟硬件生態(tài)系統(tǒng),它們能夠根據(jù)自家的業(yè)務需求和特點定制芯片,從而實現(xiàn)硬件與軟件之間的無縫對接和優(yōu)化。自研芯片還可以保持技術(shù)創(chuàng)新,隨著云計算、大數(shù)據(jù)、人工智能的快速發(fā)展,數(shù)據(jù)中心面臨的工作負載越來越多樣化,自研芯片使這些大廠能夠快速響應市場變化,及時推出符合新需求的產(chǎn)品和服務。
自研 AI 服務器芯片的難度有多大?
AI 服務器芯片屬于超大規(guī)模集成電路,除了需要大量資金投入,其設計和制造的難度都很大,需要能夠精準把握技術(shù)路線選擇,另外,在團隊建設,以及與晶圓代工廠合作方面,需要具備業(yè)界頂級水平,才能把芯片做好。
AI 服務器需要訓練和推理兩類處理器和系統(tǒng),如何規(guī)劃技術(shù)發(fā)展路線是關鍵,也就是說,是發(fā)展訓練,還是推理,或是兼而有之,是不同的技術(shù)路線,這要考慮到市場現(xiàn)狀及未來的發(fā)展情況。
訓練芯片主要用于 AI 算法訓練,即在云端將一系列經(jīng)過標記的數(shù)據(jù)輸入算法模型進行計算,不斷調(diào)整、優(yōu)化算法參數(shù),直至算法識別準確率達到較高水平。推理芯片主要用于 AI 算法推理,將在云端訓練好的算法模型進行裁剪、優(yōu)化變「輕」之后,進入應用階段,輸入數(shù)據(jù)直接得出識別結(jié)果。
不同用途(訓練和推理)、不同應用場景(端-邊-云)對 AI 芯片有著不同的要求。訓練芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延時(完成推理過程所需要的時間盡可能短)、低功耗。「端-邊-云」這 3 個環(huán)節(jié)對 AI 芯片的要求也不同,在端和邊上進行的大部分是 AI 推理,大部分的訓練是在云和數(shù)據(jù)中心進行的,訓練過程對時延沒有什么要求,需要保證 AI 芯片在盡可能保證較高算力的情況下,功耗盡量低。
目前,英偉達 GPU 主導的 AI 訓練市場最為火熱,然而,隨著 AI 應用的深入展開,巨大的推理芯片市場會逐漸展現(xiàn)出來,該市場比我們目前看到的要大得多,沒有任何一家廠商的芯片能夠滿足這個市場需求。這就是前文提到的亞馬遜、谷歌、微軟,甚至英偉達自研 CPU 的原因所在。
有統(tǒng)計顯示,AI 芯片市場包括約 15% 的訓練,45% 的數(shù)據(jù)中心推理和 40% 的邊緣推理。在這樣的行業(yè)背景下,大廠自研芯片,必須找準方向,權(quán)衡好中短期和中長期應用需求,分配好訓練芯片和推理芯片的研發(fā)投入。
芯片研發(fā)團隊建設也很重要。
技術(shù)團隊搭建,是一個長期積累的過程,需要時間,難度不小,因此,多家互聯(lián)網(wǎng)大廠對芯片設計外包服務的依賴度較高,這恐怕只能解決短期、少量需求問題,長期來看,還需要技術(shù)積累和芯片團隊建設。
下面看一下自研芯片大廠與晶圓代工廠的合作關系。
AI 服務器芯片采用的都是最先進制程工藝,這方面,考慮到三星電子的先進制程(4nm 和 3nm)良率遲遲提升不上去,臺積電幾乎是唯一的晶圓代工廠選擇。
根據(jù)專門研究半導體公司的金融分析師 Dan Nystedt 的估計,2023 年,蘋果公司占臺積電收入的 25%(175.2 億美元)。
2023 年,臺積電的前 10 名客戶占其收入的 91%,高于 2022 年的 82%,這些公司包括聯(lián)發(fā)科、AMD、高通、博通、索尼和 Marvell??梢钥闯觯瑳]有一家互聯(lián)網(wǎng)大廠,除了蘋果,都是 IC 設計大廠。
多年來,蘋果一直是臺積電的頭號客戶,而且,在未來多年內(nèi)將一直是臺積電的第一大客戶。據(jù)悉,蘋果自研的 AI 服務器芯片將采用臺積電的 3nm 制程工藝,將在 2025 下半年生產(chǎn),那時,臺積電的 3nm 制程將升級到「N3E」版本。
對于互聯(lián)網(wǎng)和 IT 設備大廠來說,自研的 AI 服務器芯片,必須找到足夠好的晶圓代工廠生產(chǎn),要想保持長期、穩(wěn)定發(fā)展,就必須對晶圓代工廠的制程工藝有足夠的了解。這方面,與谷歌、亞馬遜和微軟相比,蘋果具有先天優(yōu)勢,因為該智能設備巨頭是臺積電多年的第一大客戶,雙方有深入了解,能夠更好地把握好芯片生產(chǎn)規(guī)模、良率、成本,可以實現(xiàn)無縫過渡。
芯片設計服務商機無限
如前文所述,互聯(lián)網(wǎng)大廠自研 AI 服務器芯片,由于研發(fā)難度很大,這些大廠短時間內(nèi)又難以形成有足夠技術(shù)和經(jīng)驗積累的團隊,因此,選擇外包,找芯片設計服務合作伙伴就成為了不二選擇。
例如,谷歌開發(fā)的兩種 Arm 服務器 CPU,其中一款代號為「Maple」,是基于 Marvell 的技術(shù)。
另外,谷歌自研的 TPU 用于取代英偉達的 GPU,谷歌設計的芯片藍圖,都由博通進行物理實現(xiàn)。物理實現(xiàn)是將邏輯電路轉(zhuǎn)換為有物理連接的電路圖的過程,博通繪制好物理版圖后,再送到臺積電流片,流片成功后的芯片正式進入制造環(huán)節(jié),整個過程都需要博通深度參與。
數(shù)據(jù)中心中成百上千個高性能處理器共同運作,它們之間的通信就成為了大問題,這也是當下數(shù)據(jù)中心性能損耗的主要來源。
博通是通信巨頭,最善于解決通信帶寬問題,在全球 50GB/s 的 SerDes 市場中,博通占據(jù)了 76% 的份額,其 SerDes 接口通過將低速并行數(shù)據(jù)轉(zhuǎn)換為高速串行數(shù)據(jù),然后在接收端轉(zhuǎn)換回并行數(shù)據(jù)。通過這樣的操作,數(shù)據(jù)可以從一個 TPU 高速轉(zhuǎn)移到另一個 TPU,大大提升了傳輸效率。
有了博通的幫助,谷歌自研芯片的項目進展速度明顯加快了,TPU 從設計開始,僅用 15 個月就部署進了數(shù)據(jù)中心。
隨著大模型市場競爭快速展開,谷歌大幅增加了 TPU 設計服務訂單,使博通一躍成為僅次于英偉達的 AI 芯片廠商,Semianalysis 預估,AI 芯片會在 2024 年給博通帶來 80 億~90 億美金的營收。
不止谷歌,Meta、亞馬遜、微軟等大廠都在加大自研 AI 服務器芯片的投入力度,找芯片設計服務外包合作伙伴的需求只增不減,此時,以博通、Marvell 為代表的芯片設計服務公司的商機會越來越多。
評論