國產(chǎn)AI芯片之爭才剛剛開始
近日,芯片巨頭 AMD 推出全新 AI GPU MI300 系列芯片,與英偉達(dá)在 AI 算力市場展開競爭。
本文引用地址:http://www.ex-cimer.com/article/202307/448271.htmAMD 首席執(zhí)行官蘇姿豐介紹稱,MI300X 提供的高帶寬內(nèi)存(HBM)密度是英偉達(dá) H100 的 2.4 倍,HBM 帶寬是競品的 1.6 倍。華爾街分析師也普遍認(rèn)為,AMD 的這款芯片將對目前掌握 AI 芯片市場逾八成份額的英偉達(dá)構(gòu)成有力挑戰(zhàn),這款 MI300X 加速器,有望替代英偉達(dá)的同類產(chǎn)品。
然而,市場對本次新品的反響似乎并不熱烈。截至隔夜收盤,AMD 股價(jià)下跌超 3.6%,被挑戰(zhàn)的英偉達(dá)不跌反漲,股價(jià)單日大漲 3.90%。
至于當(dāng)日 AMD 股價(jià)下跌的原因,可能包括英偉達(dá)在 AI 發(fā)展方面更為成熟,而 AMD 公司的新品仍有待市場驗(yàn)證。此外,其客戶更關(guān)心的是價(jià)格問題。作為參考,由于供需緊張,英偉達(dá) H100 的價(jià)格已經(jīng)達(dá)到 4 萬美元/枚,而 AMD 沒有披露 MI300X 的定價(jià),難以與英偉達(dá) H100 形成對比。
躥紅的英偉達(dá)
2022 年 ChatGPT 橫空出世,把 AI 行業(yè)的發(fā)展推向了一個(gè)新的高潮,生成式 AI 需要基于海量的數(shù)據(jù)進(jìn)行推理訓(xùn)練,高算力的 GPU 加速卡自然也成了市場的搶手貨。乘著 AI 的東風(fēng),英偉達(dá)坐上了「算力霸主」的寶座。
據(jù)悉,微軟用幾億美元,耗費(fèi)上萬張英偉達(dá) A100 芯片打造超算平臺,只為給 ChatGPT 和新版必應(yīng)提供更好的算力。不僅如此,微軟還在 Azure 的 60 多個(gè)數(shù)據(jù)中心部署了幾十萬張 GPU,用于 ChatGPT 的推理。特斯拉 CEO 馬斯克也購買了約 1 萬個(gè) GPU,用于公司的兩個(gè)數(shù)據(jù)中心之一。除此之外,像亞馬遜、阿里、百度等眾多科技公司都在競相部署 AI 芯片。
供需的極度不平衡讓英偉達(dá)的 GPU 一芯難求,開啟漲價(jià)。據(jù)市場消息人士透露,英偉達(dá)的 A100 和 H100 AI GPU 訂單還在不斷增加,A800 和 H800 的售價(jià)已上漲 40%,新訂單交期可能要延長到 12 月份。
在炙手可熱的 AI 浪潮下,英偉達(dá)賺得盆滿缽滿。英偉達(dá)表示,其截至 7 月的本季度銷售額預(yù)計(jì)將達(dá) 110 億美元,較華爾街之前的估計(jì)高出 50% 以上。不過,作為 AI 的基礎(chǔ)設(shè)施,算力芯片環(huán)節(jié)的「一家獨(dú)大」顯然不是有利于行業(yè)長遠(yuǎn)發(fā)展的生態(tài),市場迫切需要引入新的競爭者,AMD 的出現(xiàn)或許有望「分擔(dān)」AI 市場的壓力。
與此同時(shí),中國本土 AI 應(yīng)用和 AI 芯片初創(chuàng)公司也隨著 AI 的熱潮和風(fēng)投的關(guān)注而遍地開花。那么,中國的 AI 芯片研究進(jìn)展如何了?哪些公司可以脫穎而出?
國產(chǎn) AI 芯片進(jìn)展幾何?
中國主要的 AI 芯片公司有寒武紀(jì)、華為昇騰、海光信息、沐曦科技、壁仞科技、燧原科技、天數(shù)智芯等,隨著 AI 應(yīng)用的普及和成效開始凸顯,國產(chǎn) AI 芯片正迎來全面爆發(fā)和增長,多家 AI 芯片獨(dú)角獸也將慢慢浮出水面。
寒武紀(jì)
在云端產(chǎn)品線,寒武紀(jì)已經(jīng)推出了四代芯片產(chǎn)品,分別為:思元 100、思元 270、思元 290(車載)以及思元 370 系列,用以支撐在云計(jì)算和數(shù)據(jù)中心場景下復(fù)雜度和數(shù)據(jù)吞吐量高速增長的人工智能處理任務(wù)。此外,寒武紀(jì)還有一款在研產(chǎn)品思元 590,尚未正式發(fā)布,并且最有看頭的便是寒武紀(jì)的思元 590。
該芯片采用 MLUarch05 全新架構(gòu),實(shí)測訓(xùn)練性能較在售旗艦產(chǎn)品思元 290 系列有大幅提升,有望成為國產(chǎn)先進(jìn) AI 算力芯片。據(jù)悉,思元 590 整體算力綜合性能大約是 A100 的 70%,其有望在部分場景替代英偉達(dá) A100。
不過,思元 590 的指令兼容性相對較差,后續(xù)可能影響部署。值得注意的是,其下一代產(chǎn)品的性能指標(biāo)大約是 A100 的 1.5 倍,但同樣面臨軟件生態(tài)影響,以及供應(yīng)鏈問題。
華為昇騰
華為昇騰主要包括昇騰 910 和昇騰 310 兩款處理器,采用自家的達(dá)芬奇架構(gòu)。昇騰 310 主打面向邊緣場景的低功耗 AI 處理器,昇騰 910 是一款面向云端和數(shù)據(jù)中心的高性能 AI 處理器,可以支持超大規(guī)模的 AI 訓(xùn)練任務(wù),表現(xiàn)十分優(yōu)秀。
據(jù)華為發(fā)布的信息,實(shí)際測試結(jié)果表明,在算力方面,昇騰 910 完全達(dá)到了設(shè)計(jì)規(guī)格,即:半精度 (FP16)算力達(dá)到 256 Tera-FLOPS,整數(shù)精度 (INT8) 算力達(dá)到 512 Tera-OPS,重要的是,達(dá)到規(guī)格算力所需功耗僅 310W,明顯低于設(shè)計(jì)規(guī)格的 350W。
據(jù)悉,在實(shí)際應(yīng)用過程中,昇騰 910 的處理速度比業(yè)界同類產(chǎn)品快 80% 以上。徐直軍表示,昇騰 910 總體技術(shù)表現(xiàn)超出預(yù)期,作為算力最強(qiáng) AI 處理器,當(dāng)之無愧。
不過昇騰 910 也有著很大的局限性。昇騰 910 依賴華為自身軟件生態(tài)、需要華為深度優(yōu)化及代碼移植,通用性相對要差一些,比如昇騰不能做 GPT-3,因?yàn)闀N騰 910 不支持 32 位浮點(diǎn),而目前大模型訓(xùn)練幾乎都要使用 32 位的浮點(diǎn)。
沐曦科技
沐曦公司旗下主要有曦思和曦云兩款 AI 芯片,其中曦云 MXC 系列是該公司研發(fā)的用于 AI 訓(xùn)練及通用計(jì)算的 GPU 芯片。
MXC500 是沐曦對標(biāo) A100/A800 的算力芯片,F(xiàn)P32 浮點(diǎn)性能可達(dá) 15TFlops,作為對比的是 A100 顯卡 FP32 性能 19.5 TFLOPS。除了性能接近之外,MXC500 的完整軟件棧(MXMACA)還兼容 CUDA,預(yù)計(jì)年底規(guī)模出貨。
此外,沐曦的團(tuán)隊(duì)背景經(jīng)驗(yàn)十分豐富,其一些核心人員曾參與 AMD 的 MI100、MI200 產(chǎn)品開發(fā),這都是 AMD 目前最主流的 GPGPU 產(chǎn)品。
海光信息
海光信息是一個(gè)潛力股,拿海光 DCU(協(xié)處理器)系列深算一號和英偉達(dá)的 A100、AMD 的 MI100 來對比,其很多基本指標(biāo)上都達(dá)到國際同類高端產(chǎn)品的水平,雖然在整體性能上依然有明顯差距,但在國產(chǎn)替代的背景下其實(shí)已經(jīng)相當(dāng)優(yōu)秀,發(fā)展?jié)摿薮蟆?/span>
不過,海光信息若要使用新一代 GPGPU 架構(gòu)還需要 AMD 授權(quán),存在迭代問題。
壁仞科技
壁仞的 BR100 發(fā)布時(shí),憑借其超高的參數(shù)與性能引起了強(qiáng)烈的轟動。
參數(shù)方面,BR100 系列基于 7nm 制程工藝打造,擁有 770 億個(gè)晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開發(fā),采用 Chiplet(芯粒)、2.5D CoWoS 等先進(jìn)的設(shè)計(jì)、制造與封裝技術(shù),可搭配 64GB HBM 2E 顯存,超 300MB 片上緩存,支持 PCIe 5.0、CXL 互聯(lián)協(xié)議等。
性能是 BR100 最具亮點(diǎn)的地方,擁有 1024 TOPS INT8,512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32,可實(shí)現(xiàn) 2.3TB/s 的外部 I/O 帶寬,支持 64 路編碼、512 路解碼等,號稱在 FP32(單精度浮點(diǎn))、INT8(整數(shù),常用于人工智能推理)等維度,均超越了國際廠商最新旗艦。
BR100 系列通用 GPU 芯片支持云端訓(xùn)練和推理,目前已經(jīng)到了收尾階段,預(yù)計(jì)將在今年流片。壁仞科技的第二款芯片已經(jīng)開始啟動架構(gòu)設(shè)計(jì),之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計(jì)算的 GPU 芯片。
不過,BR100 還未有產(chǎn)品出來,其參數(shù)至今停留在實(shí)驗(yàn)室階段,屆時(shí)商用實(shí)測性能難以衡量。
阿里平頭哥
阿里的 AI 芯片,與 GPU 架構(gòu)有著很大的不同,因?yàn)樗麄冏龅耐耆腔?AI 算法優(yōu)化的架構(gòu)。
阿里曾表示,含光 800 是當(dāng)時(shí)全球最強(qiáng)的 AI 芯片,性能和能效比均為第一,1 顆含光 800 的算力相當(dāng)于 10 顆 GPU。
含光 800 芯片在業(yè)界標(biāo)準(zhǔn)的 ResNet-50 測試中,推理性能達(dá)到 78563 IPS,比目前業(yè)界最好的 AI 芯片性能高 4 倍;能效比 500 IPS/W,是第二名的 3.3 倍。
在業(yè)界,平頭哥發(fā)布的這款芯片也很被看好。
燧原科技
燧原科技,是少有的云端 AI 芯片創(chuàng)業(yè)公司,其完成對 AI 訓(xùn)練芯片的二次迭代,僅用了三年時(shí)間,主要產(chǎn)品是「邃思」。
據(jù)介紹,燧原科技發(fā)布的邃思 2.0 的尺寸達(dá)到 57.5 毫米×57.5 毫米(面積為 3306mm2),達(dá)到了日月光 2.5D 封裝的極限,與上代產(chǎn)品一樣采用格羅方德 12nm FinFET 工藝,內(nèi)部共整合 9 顆芯片,單精度 FP32 算力為 40TFLOPS,單精度張量 TF32 算力為 160TFLOPS,整數(shù)精度 INT8 算力為 320TOPS。相比之下,英偉達(dá)基于 Ampere 架構(gòu)的 A100 GPU 的單精度浮點(diǎn)計(jì)算能力僅為 19.5TFLOPS。
昆侖芯
百度昆侖芯片是百度自主研發(fā)的云端 AI 通用芯片。在 2018 年 7 月舉辦的百度 AI 開發(fā)者大會上,百度公司董事長兼 CEO 李彥宏正式宣布,百度自研 AI 芯片命名為昆侖。百度昆侖 1 于 2019 年成功流片,采用三星 14nm 制程工藝,目前量產(chǎn)超過 2 萬片,在百度搜索引擎和百度智能云生態(tài)伙伴等場景廣泛部署。百度昆侖 2 于 2021 年下半年實(shí)現(xiàn)量產(chǎn),采用 7nm 先進(jìn)工藝,其性能比百度昆侖 1 再提升 3 倍。據(jù)悉,百度正計(jì)劃在年底做第三款昆侖芯片。
天數(shù)智芯
天數(shù)智芯主要包括天垓 100 和智鎧 100 兩款 AI 芯片,天垓 100 是一款基于 GPGPU 架構(gòu)芯片的高性能云端通用并行計(jì)算卡,據(jù)介紹,天垓 100 從底層硬件到上層軟件都是獨(dú)立設(shè)計(jì)開發(fā),不走購買國外 GPU IP 的捷徑,確保了完全自主知識產(chǎn)權(quán)。隨后天數(shù)智芯又發(fā)布了其第二款產(chǎn)品「智鎧 100」,這款芯片被譽(yù)為「鎮(zhèn)館之寶」,吸引了眾多行業(yè)用戶的關(guān)注。
天數(shù)智芯 GPGPU 計(jì)算芯片主要針對云端 AI 訓(xùn)練+推理和云端通用計(jì)算,是國內(nèi)難得的兼容 CUDA 等異構(gòu)計(jì)算生態(tài)的數(shù)據(jù)中心高端計(jì)算芯片。
只靠算力,無法做英偉達(dá)的 PlanB
英偉達(dá)的強(qiáng)不只是體現(xiàn)在硬件產(chǎn)品上,在軟件平臺中,英偉達(dá)也有自己的護(hù)城河。
CUDA 就是英偉達(dá)推出的基于 GPU 的并行計(jì)算平臺和編程模型,可以用來加速大規(guī)模數(shù)據(jù)并行計(jì)算,使得 GPU 可以用于更加廣泛的科學(xué)計(jì)算和工程計(jì)算等領(lǐng)域。CUDA 的良好生態(tài)系統(tǒng)吸引了眾多學(xué)術(shù)機(jī)構(gòu)和高性能計(jì)算中心的關(guān)注和使用,也為英偉達(dá)提供了強(qiáng)有力的市場競爭優(yōu)勢?,F(xiàn)在 AMD 也在做同樣的事情,只是英偉達(dá)已經(jīng)占了先發(fā)優(yōu)勢,AMD 搭建起來可能會更為艱難。
CUDA 的重要性不言而喻,但是提供 CUDA 兼容層,需要廠商具備足夠的研發(fā)實(shí)力,上文提到的與 CUDA 兼容的有沐曦、海光、壁仞、天數(shù)智芯等公司,因此是否兼容 CUDA 也成為衡量 AI 芯片公司的標(biāo)的之一。
至于是否一定要兼容 CUDA,業(yè)界有著不同見解。專家稱,在小模型上 CUDA 仍然很重要,但在大模型上它的地位越來越輕了。如果未來中國市場以小模型為主,那 CUDA 還是有很大的影響力,而如果是以大模型為主,對于 CUDA 的依賴就越來越小了。
總而言之,重視軟件配適開發(fā)至關(guān)重要。
對于建立國產(chǎn) IT 系統(tǒng)的行動建議包括:設(shè)置合理國產(chǎn)系統(tǒng)及芯片性能要求和驗(yàn)證目的,從非關(guān)鍵應(yīng)用開始嘗試導(dǎo)入部分國產(chǎn)芯片;加強(qiáng)軟件配適開發(fā),確保軟件對不同系統(tǒng)的兼容性、穩(wěn)定性和運(yùn)營性能;建立加強(qiáng)對國內(nèi)基礎(chǔ) IT 軟硬件廠商的投資,確保廠商對產(chǎn)品開發(fā)計(jì)劃的影響力;優(yōu)先考慮國內(nèi)供應(yīng)鏈和成熟平臺,積極采用半導(dǎo)體創(chuàng)新技術(shù)。
未來與英偉達(dá)的差距定然會逐步縮小
目前芯片已經(jīng)成為半導(dǎo)體行業(yè)中最具有發(fā)展?jié)摿Φ念I(lǐng)域之一,AI 芯片作為推動芯片行業(yè)發(fā)展的核心市場,其行業(yè)價(jià)值無法估計(jì),隨著 AI 芯片技術(shù)的逐漸成熟,其應(yīng)用場景逐步滲透到各類智能終端領(lǐng)域中,在我國科技發(fā)展中占據(jù)越來越重要的地位。
根據(jù) Gartner 的數(shù)據(jù),在目前全球半導(dǎo)體產(chǎn)業(yè)中,中國 GPU 的全球市場占比規(guī)模僅 1%。2022 年,在全球 6000 億美元的半導(dǎo)體采購中,中國企業(yè)的芯片采購規(guī)模達(dá)到 1490 億美元,占到四分之一;跨國企業(yè)的中國工廠芯片采購規(guī)模達(dá)到 2130 億美元,占比 35%。
中國的芯片產(chǎn)業(yè)還有著巨大的發(fā)展?jié)摿?。未來,中國芯片產(chǎn)業(yè)將繼續(xù)加大投資,國內(nèi)企業(yè)與英偉達(dá)的距離也一定會逐步縮小。
評論