六大科技巨頭的自研AI芯片進(jìn)程解讀
2023 年,「生成式人工智能」無疑是科技行業(yè)最熱門的術(shù)語。
本文引用地址:http://www.ex-cimer.com/article/202402/455554.htmOpenAI 推出的生成應(yīng)用 ChatGPT 引發(fā)了市場狂熱,促使各科技巨頭紛紛加入競爭。
據(jù) TechNews 報(bào)道,目前 NVIDIA 通過提供 AI 加速器占據(jù)市場主導(dǎo)地位,但這導(dǎo)致了市場上其 AI 加速器的短缺。甚至 OpenAI 也打算開發(fā)自己的芯片,以避免受到供應(yīng)鏈緊張的限制。
在當(dāng)前的 AI 發(fā)展浪潮中,NVIDIA 無疑是 AI 算力的領(lǐng)跑者。其 A100/H100 系列芯片已獲得全球人工智能市場頂級客戶的訂單。
華爾街投資銀行 Bernstein Research 的分析師 Stacy Rasgon 表示,使用 ChatGPT 進(jìn)行的每次查詢的成本約為 0.04 美元。如果 ChatGPT 查詢規(guī)模擴(kuò)大到 Google 搜索量的十分之一,初始部署將需要價(jià)值約 481 億美元的 GPU 進(jìn)行計(jì)算,每年需要價(jià)值約 160 億美元的芯片來維持運(yùn)營,以及類似的相關(guān)芯片執(zhí)行任務(wù)的數(shù)量。
因此,無論是為了降低成本、減少對 NVIDIA 的過度依賴,甚至是進(jìn)一步增強(qiáng)議價(jià)能力,全球科技巨頭都啟動(dòng)了開發(fā)自己的 AI 加速器的計(jì)劃。
據(jù)科技媒體 The Information 援引行業(yè)消息人士報(bào)道,微軟、OpenAI、特斯拉、谷歌、亞馬遜和 Meta 等六大全球科技巨頭都在投資開發(fā)自己的 AI 加速器芯片。這些公司預(yù)計(jì)將與 NVIDIA 的旗艦 H100 AI 加速器芯片展開競爭。
科技巨頭自研芯片進(jìn)展
微軟
2023 年 11 月,微軟在年度 IT 專業(yè)人士和開發(fā)者大會 Ignite 上推出兩款自研芯片——云端 AI 芯片微軟 Azure Maia 100、服務(wù)器 CPU 微軟 Azure Cobalt 100。
Maia 100 是微軟為微軟云中大語言模型訓(xùn)練和推理而設(shè)計(jì)的第一款 AI 芯片,采用臺積電 5nm 工藝,擁有 1050 億顆晶體管,針對 AI 和生成式 AI 進(jìn)行了優(yōu)化,支持微軟首次實(shí)現(xiàn)的低于 8 位數(shù)據(jù)類型(MX 數(shù)據(jù)類型)。微軟已經(jīng)在用搜索引擎 Bing 和 Office AI 產(chǎn)品測試該芯片。
Cobalt 100 是微軟為微軟云定制開發(fā)的第一款 CPU,也是微軟打造的第一款完整的液冷服務(wù)器 CPU,采用 Arm Neoverse CSS 設(shè)計(jì)、128 核。
微軟還定制設(shè)計(jì)了一個(gè) AI 端到端機(jī)架,并搭配了一個(gè)「助手」液冷器,原理類似于汽車散熱器。
兩款芯片明年年初開始在微軟數(shù)據(jù)中心推出,最初為微軟的 Copilot 或 Azure OpenAI Service 等服務(wù)提供動(dòng)力。微軟已經(jīng)在設(shè)計(jì)第二代版本的 Azure Maia AI 芯片和 Cobalt CPU 系列。
這些芯片代表了微軟交付基礎(chǔ)設(shè)施系統(tǒng)的最后一塊拼圖——從芯片、軟件和服務(wù)器到機(jī)架和冷卻系統(tǒng)的一切,微軟這些系統(tǒng)都是由上到下設(shè)計(jì)的,可以根據(jù)內(nèi)部和客戶的工作負(fù)載進(jìn)行優(yōu)化。
OpenAI
據(jù)悉,OpenAI 也正在探索自研 AI 芯片,同時(shí)開始評估潛在收購目標(biāo)。在其招聘網(wǎng)站上,最近也出現(xiàn)了 AI 硬件共同開發(fā)、評估相關(guān)崗位。OpenAI 擬籌建的合資企業(yè)與總部位于阿布扎比的 G42 和軟銀集團(tuán)等潛在投資者進(jìn)行了討論,旨在解決當(dāng)前和預(yù)期的人工智能相關(guān)芯片供應(yīng)短缺問題。
毫無疑問,該項(xiàng)目的財(cái)務(wù)和運(yùn)營規(guī)模顯然是巨大的。Altman 僅與 G42 的討論就集中在籌集 80 億至 100 億美元之間。該項(xiàng)目的全部范圍和合作伙伴名單仍處于早期階段,這表明建立此類設(shè)施網(wǎng)絡(luò)需要大量投資和時(shí)間。
盡管還不清楚 Altman 是否計(jì)劃購買一家成熟的代工廠來生產(chǎn) AI 芯片,或建立一個(gè)全新的晶圓廠網(wǎng)絡(luò)來滿足 OpenAI 及其潛在合作伙伴的需求,但此前有人分析 Altman 可能會考慮把參與投資的芯片公司納入麾下,包括 CerebrasRain NeuromorphicsAtomic SemiCerebras、Rain Neuromorphics、tomic Semi。
特斯拉
電動(dòng)汽車制造商特斯拉也積極參與 AI 加速器芯片的開發(fā)。特斯拉主要圍繞自動(dòng)駕駛需求,迄今為止推出了兩款 AI 芯片:全自動(dòng)駕駛(FSD)芯片和 Dojo D1 芯片。
FSD 芯片用于特斯拉汽車的自動(dòng)駕駛系統(tǒng),而 Dojo D1 芯片則用于特斯拉的超級計(jì)算機(jī)。它充當(dāng)通用 CPU,構(gòu)建 AI 訓(xùn)練芯片來為 Dojo 系統(tǒng)提供動(dòng)力。
谷歌
Google 也早在 2013 年就秘密研發(fā)專注 AI 機(jī)器學(xué)習(xí)算法芯片,并用于云計(jì)算數(shù)據(jù)中心,取代英偉達(dá) GPU。
這款 TPU 自研芯片 2016 年公開,為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運(yùn)算,如自然語言處理、計(jì)算機(jī)視覺和推薦系統(tǒng)模型。Google 其實(shí)在 2020 年的資料中心便建構(gòu) AI 芯片 TPU v4,直到 2023 年 4 月才首次公開細(xì)節(jié)。
2023 年 12 月 6 日,谷歌官宣了全新的多模態(tài)大模型 Gemini,包含了三個(gè)版本,根據(jù)谷歌的基準(zhǔn)測試結(jié)果,其中的 Gemini Ultra 版本在許多測試中都表現(xiàn)出了「最先進(jìn)的性能」,甚至在大部分測試中完全擊敗了 OpenAI 的 GPT-4。
而在 Gemini 出盡了風(fēng)頭的同時(shí),谷歌還丟出了另一個(gè)重磅炸彈——全新的自研芯片 TPU v5p,它也是迄今為止功能最強(qiáng)大的 TPU。
根據(jù)官方提供的數(shù)據(jù),每個(gè) TPU v5p pod 在三維環(huán)形拓?fù)浣Y(jié)構(gòu)中,通過最高帶寬的芯片間互聯(lián)(ICI),以 4800 Gbps/chip 的速度將 8960 個(gè)芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬內(nèi)存(HBM)分別提高了 2 倍和 3 倍。
除此之外,TPU v5p 訓(xùn)練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,利用第二代 SparseCores,TPU v5p 訓(xùn)練嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每個(gè) pod 的總可用 FLOPs 方面的可擴(kuò)展性也比 TPU v4 高出 4 倍,且每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)增加了一倍,單個(gè) pod 中的芯片數(shù)量也增加了一倍,大大提高了訓(xùn)練速度的相對性能。
亞馬遜
亞馬遜旗下的云計(jì)算服務(wù)提供商亞馬遜網(wǎng)絡(luò)服務(wù)(AWS),自 2013 年推出 Nitro1 芯片以來,它一直是開發(fā)自有芯片的先驅(qū)。AWS 此后開發(fā)了自研芯片的三個(gè)產(chǎn)品線,包括網(wǎng)絡(luò)芯片、服務(wù)器芯片、AI 機(jī)器學(xué)習(xí)芯片。
其中,AWS 自研 AI 芯片陣容包括推理芯片 Inferentia 和訓(xùn)練芯片 Trainium。
此外,AWS 于 2023 年初推出了專為人工智能設(shè)計(jì)的 Inferentia 2(Inf2)。它將計(jì)算性能提高了三倍,同時(shí)將加速器總內(nèi)存增加了四分之一。
它通過芯片之間直接超高速連接支持分布式推理,可處理多達(dá) 1750 億個(gè)參數(shù),使其成為當(dāng)今 AI 芯片市場上最強(qiáng)大的內(nèi)部制造商。
Meta
Meta 在 2022 年之前繼續(xù)使用專為加速 AI 算法而定制的 CPU 和定制芯片組來執(zhí)行其 AI 任務(wù)。然而,由于 CPU 在執(zhí)行 AI 任務(wù)方面與 GPU 相比效率較低,Meta 放棄了 2022 年大規(guī)模推出定制設(shè)計(jì)芯片的計(jì)劃,而是選擇購買價(jià)值數(shù)十億美元的 NVIDIA GPU。
盡管如此,在其他主要廠商開發(fā)內(nèi)部人工智能加速器芯片的浪潮中,Meta 也涉足內(nèi)部芯片開發(fā)。
2023 年 5 月 19 日,Meta 進(jìn)一步公布了其人工智能訓(xùn)練和推理芯片項(xiàng)目。該芯片功耗僅為 25 瓦,是 NVIDIA 同類產(chǎn)品功耗的 1/20。它采用 RISC-V 開源架構(gòu)。據(jù)市場報(bào)道,該芯片也將采用臺積電的 7 納米制造工藝生產(chǎn)。
美國去年 10 月擴(kuò)大禁止向中國出售先進(jìn)人工智能芯片,英偉達(dá)雖然迅速為中國市場量身訂造新芯片,以符合美國出口規(guī)定。但近日有消息指出,阿里巴巴、騰訊等中國云計(jì)算大客戶,并不熱衷購買功能降低的減規(guī)版 H20 芯片,轉(zhuǎn)成國內(nèi)采購。策略轉(zhuǎn)變顯示透過部分先進(jìn)半導(dǎo)體訂單轉(zhuǎn)給中國公司,將更依賴中國本土廠商芯片。
TrendForce 表示,中國云端業(yè)者約八成高階 AI 芯片購自英偉達(dá),五年內(nèi)可能降至 50%~60%。若美國繼續(xù)加強(qiáng)芯片管制,可能對英偉達(dá)中國地區(qū)銷售造成額外壓力。
評論