AI 芯片的未來,未必是 GPU
在人工智能計(jì)算架構(gòu)的布局中,CPU 與加速芯片協(xié)同工作的模式已成為一種典型的 AI 部署方案。CPU 扮演基礎(chǔ)算力的提供者角色,而加速芯片則負(fù)責(zé)提升計(jì)算性能,助力算法高效執(zhí)行。常見的 AI 加速芯片按其技術(shù)路徑,可劃分為 GPU、FPGA 和 ASIC 三大類別。
本文引用地址:http://www.ex-cimer.com/article/202407/460549.htm在這場競爭中,GPU 憑借其獨(dú)特的優(yōu)勢成為主流的 AI 芯片。那么,GPU 是如何在眾多選項(xiàng)中脫穎而出的呢?展望 AI 的未來,GPU 是否仍是唯一解呢?
GPU 如何制勝當(dāng)下?
AI 與 GPU 之間存在著密切的關(guān)系。
強(qiáng)大的并行計(jì)算能力
AI 大模型指的是規(guī)模龐大的深度學(xué)習(xí)模型,它們需要處理海量的數(shù)據(jù)和進(jìn)行復(fù)雜的計(jì)算。GPU 的核心優(yōu)勢就在于其強(qiáng)大的并行計(jì)算能力。與傳統(tǒng)的 CPU 相比,GPU 能夠同時(shí)處理多個(gè)任務(wù),特別適合處理大規(guī)模數(shù)據(jù)集和復(fù)雜計(jì)算任務(wù)。在深度學(xué)習(xí)等需要大量并行計(jì)算的領(lǐng)域,GPU 展現(xiàn)出了無可比擬的優(yōu)勢。
完善的生態(tài)系統(tǒng)
其次,為了便于開發(fā)者充分利用 GPU 的計(jì)算能力,各大廠商提供了豐富的軟件庫、框架和工具。例如,英偉達(dá)的 CUDA 平臺就為開發(fā)者提供了豐富的工具和庫,使得 AI 應(yīng)用的開發(fā)和部署變得相對容易。這使得 GPU 在需要快速迭代和適應(yīng)新算法的場景中更具競爭力。
通用性好
GPU 最初是用于圖形渲染的,但隨著時(shí)間的推移,它的應(yīng)用領(lǐng)域逐漸擴(kuò)大。如今,GPU 不僅在圖形處理中發(fā)揮著核心作用,還廣泛應(yīng)用于深度學(xué)習(xí)、大數(shù)據(jù)分析等領(lǐng)域。這種通用性使得 GPU 能夠滿足多種應(yīng)用需求,而 ASIC 和 FPGA 等專用芯片則局限于特定場景。
有人將 GPU 比作一把通用的多功能廚具,適用于各種烹飪需求。因此在 AI 應(yīng)用的大多數(shù)情況下,GPU 都被視為最佳選擇。相應(yīng)的,功能多而廣的同時(shí)往往伴隨著特定領(lǐng)域不夠「精細(xì)」,
接下來看一下,相較其他類型的加速芯片,GPU 需要面臨哪些掣肘?
GPU 也存在它的掣肘
文首提到,常見的 AI 加速芯片根據(jù)其技術(shù)路徑,可以劃分為 GPU、FPGA 和 ASIC 三大類別。
FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列),是一種半定制芯片。用戶可以根據(jù)自身的需求進(jìn)行重復(fù)編程。FPGA 的優(yōu)點(diǎn)是既解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn),對芯片硬件層可以靈活編譯,功耗小于 CPU、GPU;缺點(diǎn)是硬件編程語言較難,開發(fā)門檻較高,芯片成本、價(jià)格較高。FPGA 比 GPU、CPU 更快是因?yàn)槠渚哂卸ㄖ苹慕Y(jié)構(gòu)。
ASIC(Application Specific Integrated Circuit 特定用途集成電路)根據(jù)產(chǎn)品的需求進(jìn)行特定設(shè)計(jì)和制造的集成電路,其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于 GPU、FPGA,但初始投入大,專業(yè)性強(qiáng)縮減了其通用性,算法一旦改變,計(jì)算能力會大幅下降,需要重新定制。
再看 GPU 相較于這兩類芯片存在哪些劣勢。
第一點(diǎn),GPU 的單位成本理論性能低于 FPGA、ASIC。
從成本角度看,GPU、FPGA、ASIC 三種硬件從左到右,從軟件到硬件,通用性逐漸降低、越專用,可定制化逐漸提高,相應(yīng)的設(shè)計(jì)、開發(fā)成本逐漸提高,但是單位成本理論性能越高。舉個(gè)例子,對于還在實(shí)驗(yàn)室階段的經(jīng)典算法或深度學(xué)習(xí)算法,使用 GPU 做軟件方面的探索就很合適;對于已經(jīng)逐漸成為標(biāo)準(zhǔn)的技術(shù),適合使用 FPGA 做硬件加速部署;對于已經(jīng)成為標(biāo)準(zhǔn)的計(jì)算任務(wù),則直接推出專用芯片 ASIC。
從公司的角度來說,同樣對于大批量數(shù)據(jù)的計(jì)算任務(wù),同等內(nèi)存大小、同等算力的成熟 GPU 和 FPGA 的部署成本相近。 如果公司的業(yè)務(wù)邏輯經(jīng)常變化,比如 1-2 年就要變化一次,那么 GPU 的開發(fā)成本低、部署速度快;如果公司業(yè)務(wù) 5 年左右才變化一次,F(xiàn)PGA 開發(fā)成本雖高、但芯片本身的成本相比 GPU 低很多。
第二點(diǎn),GPU 的運(yùn)算速度要遜色于 FPGA 和 ASIC。
FPGA、ASIC 和 GPU 內(nèi)都有大量的計(jì)算單元,因此它們的計(jì)算能力都很強(qiáng)。在進(jìn)行神經(jīng)網(wǎng)絡(luò)運(yùn)算的時(shí)候,三者的速度會比 CPU 快很多。但是 GPU 由于架構(gòu)固定,硬件原生支持的指令也就固定了,而 FPGA 和 ASIC 則是可編程的,其可編程性是關(guān)鍵,因?yàn)樗屲浖c終端應(yīng)用公司能夠提供與其競爭對手不同的解決方案,并且能夠靈活地針對自己所用的算法修改電路。
因此在很多場景的應(yīng)用中,F(xiàn)PGA 和 ASIC 的運(yùn)算速度要大大優(yōu)于 GPU。
具體到場景應(yīng)用,GPU 浮點(diǎn)運(yùn)算能力很強(qiáng),適合高精度的神經(jīng)網(wǎng)絡(luò)計(jì)算;FPGA 并不擅長浮點(diǎn)運(yùn)算,但是對于網(wǎng)絡(luò)數(shù)據(jù)包、視頻流可以做到很強(qiáng)的流水線處理;ASIC 則根據(jù)成本有幾乎無限的算力,取決于硬件設(shè)計(jì)者。
第三點(diǎn),GPU 的功耗遠(yuǎn)遠(yuǎn)大于 FPGA 和 ASIC。
再看功耗。GPU 的功耗,是出了名的高,單片可以達(dá)到 250W,甚至 450W(RTX4090)。而 FPGA 一般只有 30~50W。這主要是因?yàn)閮?nèi)存讀取。GPU 的內(nèi)存接口(GDDR5、HBM、HBM2)帶寬極高,大約是 FPGA 傳統(tǒng) DDR 接口的 4-5 倍。但就芯片本身來說,讀取 DRAM 所消耗的能量,是 SRAM 的 100 倍以上。GPU 頻繁讀取 DRAM 的處理,產(chǎn)生了極高的功耗。另外,F(xiàn)PGA 的工作主頻(500MHz 以下)比 CPU、GPU(1~3GHz)低,也會使得自身功耗更低。
再看 ASIC,ASIC 的性能和功耗優(yōu)化是針對特定應(yīng)用進(jìn)行的,因此在特定任務(wù)上性能更高、功耗更低。由于設(shè)計(jì)是針對特定功能的,ASIC 在執(zhí)行效率和能效比方面通常優(yōu)于 FPGA。
舉個(gè)例子,在智能駕駛這樣的領(lǐng)域,環(huán)境感知、物體識別等深度學(xué)習(xí)應(yīng)用要求計(jì)算響應(yīng)方面必須更快的同時(shí),功耗也不能過高,否則就會對智能汽車的續(xù)航里程造成較大影響。
第四點(diǎn),GPU 時(shí)延高于 FPGA、ASIC。FPGA 相對于 GPU 具有更低的延遲。GPU 通常需要將不同的訓(xùn)練樣本,劃分成固定大小的「Batch(批次)」,為了最大化達(dá)到并行性,需要將數(shù)個(gè) Batch 都集齊,再統(tǒng)一進(jìn)行處理。
FPGA 的架構(gòu),是無批次的。每處理完成一個(gè)數(shù)據(jù)包,就能馬上輸出,時(shí)延更有優(yōu)勢。ASIC 也是實(shí)現(xiàn)極低延遲的另一種技術(shù)。在針對特定任務(wù)進(jìn)行優(yōu)化后,ASIC 通常能夠?qū)崿F(xiàn)比 FPGA 更低的延遲,因?yàn)樗梢韵?FPGA 中可能存在的額外編程和配置開銷。
既如此,為什么 GPU 還會成為現(xiàn)下 AI 計(jì)算的大熱門呢?
在當(dāng)前的市場環(huán)境下,由于各大廠商對于成本和功耗的要求尚未達(dá)到嚴(yán)苛的程度,加之英偉達(dá)在 GPU 領(lǐng)域的長期投入和積累,使得 GPU 成為了當(dāng)前最適合大模型應(yīng)用的硬件產(chǎn)品。盡管 FPGA 和 ASIC 在理論上具有潛在的優(yōu)勢,但它們的開發(fā)過程相對復(fù)雜,目前在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn),難以廣泛普及。因此,眾多廠商紛紛選擇 GPU 作為解決方案,這也導(dǎo)致了第五點(diǎn)潛在問題的浮現(xiàn)。
第五點(diǎn),高端 GPU 的產(chǎn)能問題也令人焦慮。
OpenAI 首席科學(xué)家 IlyaSutskever?表示,GPU 就是新時(shí)代的比特幣。在算力激增的背景下,英偉達(dá)的 B 系列和 H 系列 GPU 成為「硬通貨」。
然而,雖然該系列需求十分旺盛,但考慮到 HBM 和 CoWos 供需緊張,以及臺積電先進(jìn)產(chǎn)能吃緊的情況,GPU 產(chǎn)能實(shí)在無法跟得上需求。
要知道「巧婦難為無米之炊」,在這種形勢下,科技巨頭們需要更加靈活地應(yīng)對市場變化,囤積更多的 GPU 產(chǎn)品或者尋找替代方案。
如今已經(jīng)有不少廠商開始另辟蹊徑,在 GPU 之外的道路上探索并研發(fā)更為專業(yè)化、精細(xì)化的計(jì)算設(shè)備和解決方案。那么未來的 AI 加速芯片又將如何發(fā)展?
科技巨頭另辟蹊徑
在當(dāng)下這個(gè)科技發(fā)展極快、算法以月為單位更迭的大數(shù)據(jù)時(shí)代,GPU 確實(shí)適合更多人;但是一旦未來的商業(yè)需求固定下來,F(xiàn)PGA 甚至 ASIC 則會成為更好的底層計(jì)算設(shè)備。
各芯片龍頭和科技龍頭也早已開始研發(fā)生產(chǎn)專用于深度學(xué)習(xí)、DNN 的運(yùn)算芯片或基于 FPGA 架構(gòu)的半定制芯片,代表產(chǎn)品有 Google 研發(fā)的張量計(jì)算處理器 TPU、 Intel 旗下的 Altera Stratix V FPGA 等。
Google 押注定制化的 ASIC 芯片:TPU
Google 早在 2013 年就秘密研發(fā)專注 AI 機(jī)器學(xué)習(xí)算法芯片,并用于云計(jì)算數(shù)據(jù)中心,取代英偉達(dá) GPU。
這款 TPU 自研芯片 2016 年公開,為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運(yùn)算,如自然語言處理、計(jì)算機(jī)視覺和推薦系統(tǒng)模型。Google 其實(shí)在 2020 年的資料中心便建構(gòu) AI 芯片 TPU v4,直到 2023 年 4 月才首次公開細(xì)節(jié)。
值得注意的是 TPU 是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計(jì),并專門用于機(jī)器學(xué)習(xí)工作負(fù)載。
2023 年 12 月 6 日,谷歌官宣了全新的多模態(tài)大模型 Gemini,包含了三個(gè)版本,根據(jù)谷歌的基準(zhǔn)測試結(jié)果,其中的 Gemini Ultra 版本在許多測試中都表現(xiàn)出了「最先進(jìn)的性能」,甚至在大部分測試中完全擊敗了 OpenAI 的 GPT-4。
而在 Gemini 出盡了風(fēng)頭的同時(shí),谷歌還丟出了另一個(gè)重磅炸彈——全新的自研芯片 TPU v5p,它也是迄今為止功能最強(qiáng)大的 TPU。根據(jù)官方提供的數(shù)據(jù),每個(gè) TPU v5p pod 在三維環(huán)形拓?fù)浣Y(jié)構(gòu)中,通過最高帶寬的芯片間互聯(lián)(ICI),以 4800 Gbps/chip 的速度將 8960 個(gè)芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬內(nèi)存(HBM)分別提高了 2 倍和 3 倍。
隨后在今年 5 月,谷歌又宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元--Trillium,并表示將于今年晚些時(shí)候推出交付。谷歌表示,第六代 Trillium 芯片的計(jì)算性能比 TPU v5e 芯片提高 4.7 倍,能效比 v5e 高出 67%。這款芯片旨在為從大模型中生成文本和其他內(nèi)容的技術(shù)提供動力。谷歌還表示,第六代 Trillium 芯片將在今年年底可供其云客戶使用。
據(jù)悉,英偉達(dá)在 AI 芯片市場的市占高達(dá) 80% 左右,其余 20% 的絕大部分由各種版本的谷歌 TPU 所控制。谷歌自身不出售芯片,而是通過其云計(jì)算平臺租用訪問權(quán)限。
微軟:推出基于 Arm 架構(gòu)的通用型芯片 Cobalt、ASIC 芯片 Maia 100
2023 年 11 月,微軟在 Ignite 技術(shù)大會上發(fā)布了首款自家研發(fā)的 AI 芯片 Azure Maia 100,以及應(yīng)用于云端軟件服務(wù)的芯片 Azure Cobalt。兩款芯片將由臺積電代工,采用 5nm 制程技術(shù)。
據(jù)悉,英偉達(dá)的高端產(chǎn)品一顆有時(shí)可賣到 3 萬到 4 萬美元,用于 ChatGPT 的芯片被認(rèn)為大概就需要有 1 萬顆,這對 AI 公司是個(gè)龐大成本。有大量 AI 芯片需求的科技大廠極力尋求可替代的供應(yīng)來源,微軟選擇自行研發(fā),便是希望增強(qiáng) ChatGPT 等生成式 AI 產(chǎn)品的性能,同時(shí)降低成本。
Cobalt 是基于 Arm 架構(gòu)的通用型芯片,具有 128 個(gè)核心,Maia 100 是一款專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片,用于云端訓(xùn)練和推理的,晶體管數(shù)量達(dá)到 1050 億個(gè)。這兩款芯片將導(dǎo)入微軟 Azure 數(shù)據(jù)中心,支持 OpenAI、Copilot 等服務(wù)。
負(fù)責(zé) Azure 芯片部門的副總裁 Rani Borkar 表示,微軟已開始用 Bing 和 Office AI 產(chǎn)品測試 Maia 100 芯片,微軟主要 AI 合作伙伴、ChatGPT 開發(fā)商 OpenAI,也在進(jìn)行測試中。有市場評論認(rèn)為,微軟 AI 芯片立項(xiàng)的時(shí)機(jī)很巧,正好在微軟、OpenAI 等公司培養(yǎng)的大型語言模型已經(jīng)開始騰飛之際。
不過,微軟并不認(rèn)為自己的 AI 芯片可以廣泛替代英偉達(dá)的產(chǎn)品。有分析認(rèn)為,微軟的這一努力如果成功的話,也有可能幫助它在未來與英偉達(dá)的談判中更具優(yōu)勢。
據(jù)悉,微軟有望在即將到來的 Build 技術(shù)大會上發(fā)布一系列云端軟硬件技術(shù)新進(jìn)展。而備受關(guān)注的是,微軟將向 Azure 用戶開放其自研的 AI 芯片 Cobalt 100 的使用權(quán)限。
英特爾押注 FPGA 芯片
英特爾表示,早期的人工智能工作負(fù)載,比如圖像識別,很大程度上依賴于并行性能。因?yàn)?GPU 是專門針對視頻和顯卡設(shè)計(jì)的,因此,將其應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)變得很普遍。GPU 在并行處理方面表現(xiàn)出色,并行執(zhí)行大量計(jì)算操作。換句話說,如果必須多次快速執(zhí)行同一工作負(fù)載,它們可以實(shí)現(xiàn)令人難以置信的速度提高。
但是,在 GPU 上運(yùn)行人工智能是存在局限的。GPU 不能夠提供與 ASIC 相媲美的性能,后者是一種針對給定的深度學(xué)習(xí)工作負(fù)載專門構(gòu)建的芯片。
而 FPGA 則能夠借助集成的人工智能提供硬件定制,并且可以通過編程提供與 GPU 或 ASIC 相類似的工作方式。FPGA 可重新編程、重新配置的性質(zhì)使其格外適合應(yīng)用于飛速演變的人工智能領(lǐng)域,這樣,設(shè)計(jì)人員就能夠快速測試算法,并將產(chǎn)品加速推向市場。
英特爾 FPGA 家族包括英特爾 Cyclone 10 GX FPGA、英特爾 Arria 10 GX FPGA 和英特爾 Stratix 10 GX FPGA 等。這些產(chǎn)品具備 I/O 靈活性、低功耗(或每次推理的能耗)和低時(shí)延,本就可在 AI 推理上帶來優(yōu)勢。這些優(yōu)勢在三個(gè)全新的英特爾 FPGA 和片上系統(tǒng)家族的產(chǎn)品中又得到了補(bǔ)充,使得 AI 推理性能進(jìn)一步獲得了顯著提升。這三個(gè)家族分別是英特爾 Stratix 10 NX FPGA 以及英特爾 Agilex FPGA 家族的新成員:英特爾 Agilex D 系列 FPGA,和代號為「Sundance Mesa」的全新英特爾 Agilex 設(shè)備家族。這些英特爾 FPGA 和 SoC 家族包含專門面向張量數(shù)學(xué)運(yùn)算優(yōu)化的專用 DSP 模塊,為加速 AI 計(jì)算奠定了基礎(chǔ)。
今年 3 月,芯片巨頭英特爾宣布成立全新獨(dú)立運(yùn)營的 FPGA 公司——Altera。英特爾在 2015 年 6 月以 167 億美元收購 Altera,被收購時(shí) Altera 是全球第二大 FPGA 公司,九年后英特爾決定讓 FPGA 業(yè)務(wù)獨(dú)立運(yùn)營,再次選擇以 Altera 命名。
NPU(Neural Processing Unit) 也是一種參考人體神經(jīng)突觸的 ASIC 芯片。隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的興起,CPU 和 GPU 逐漸難以滿足深度學(xué)習(xí)的需要,專門用于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的處理器 NPU 應(yīng)運(yùn)而生。NPU 采用「數(shù)據(jù)驅(qū)動并行計(jì)算」的架構(gòu),特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù)。區(qū)別于 CPU 以及 GPU 所遵循的馮諾依曼架構(gòu),NPU 參考人體的神經(jīng)突觸結(jié)構(gòu),將存儲與運(yùn)算結(jié)為一體。
Arm 近日宣布推出 Ethos-U85 NPU。作為 Arm 面向邊緣 AI 的第三代 NPU 產(chǎn)品,Ethos-U85 適用于工業(yè)自動化和視頻監(jiān)控等場景,在性能方面提升了四倍。Ethos-U85 較上一代產(chǎn)品在能效方面擁有 20% 的提升,還可在常用神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn) 85% 的利用率。其在設(shè)計(jì)上適合基于 Arm Cortex-M / A 處理器內(nèi)核的系統(tǒng),能接受較高的內(nèi)存延遲。
協(xié)同、訓(xùn)練推理融合、具備統(tǒng)一生態(tài)的系列化智能芯片產(chǎn)品和平臺化基礎(chǔ)系統(tǒng)軟件。寒武紀(jì)產(chǎn)品廣泛應(yīng)用于服務(wù)器廠商和產(chǎn)業(yè)公司,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等
此外,OpenAI 也正在探索自研 AI 芯片,同時(shí)開始評估潛在收購目標(biāo)。AWS 自研 AI 芯片陣容包括推理芯片 Inferentia 和訓(xùn)練芯片 Trainium。 電動汽車制造商特斯拉也積極參與 AI 加速器芯片的開發(fā)。特斯拉主要圍繞自動駕駛需求,迄今為止推出了兩款 AI 芯片:全自動駕駛(FSD)芯片和 Dojo D1 芯片。
去年 5 月Meta 披露了旗下數(shù)據(jù)中心項(xiàng)目支持 AI 工作的細(xì)節(jié),提到已經(jīng)打造一款定制芯片,簡稱 MTIA,用于加快生成式 AI 模型的訓(xùn)練。這是 Meta 首次推出 AI 定制芯片。Meta 稱,MTIA 是加快 AI 訓(xùn)練和推理工作負(fù)載的芯片「家族」的一分子。此外,Meta 介紹,MTIA 采用開源芯片架構(gòu) RISC-V,它的功耗僅有 25 瓦,遠(yuǎn)低于英偉達(dá)等主流芯片廠商的產(chǎn)品功耗。值得注意的是,今年 4 月,Meta 公布了自主研發(fā)芯片 MTIA 的最新版本。分析指出,Meta 的目標(biāo)是降低對英偉達(dá)等芯片廠商的依賴。
評論