<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 編輯觀點(diǎn) > 破局GPU的AI霸權(quán) Intel Gaudi3幫國(guó)內(nèi)廠商探路

破局GPU的AI霸權(quán) Intel Gaudi3幫國(guó)內(nèi)廠商探路

作者：lijian 時(shí)間：2024-04-12 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

收藏

如果說人工智能是最近當(dāng)紅的技術(shù)話題一哥，那么這個(gè)應(yīng)用背后的硬件則是中國(guó)半導(dǎo)體產(chǎn)業(yè)不可名狀的悲傷。從2022年對(duì)高性能3nm GAA-FET的EDA應(yīng)用審批開始，美國(guó)政府針對(duì)中國(guó)或全球半導(dǎo)體的各種禁令在公開層面的主要目標(biāo)只有一個(gè)，就是中國(guó)AI硬件產(chǎn)業(yè)。

本文引用地址：http://www.ex-cimer.com/article/202404/457521.htm

美國(guó)政府針對(duì)中國(guó)AI產(chǎn)業(yè)先是禁了高端AI芯片在中國(guó)市場(chǎng)的銷售，隨后叫停了美籍人員參與中國(guó)芯片設(shè)計(jì)的資格，第三步是直接要求先進(jìn)代工廠拒絕為滿足一定性能和工藝的中國(guó)AI芯片代工，最后干脆今年清明節(jié)開始對(duì)含有部分禁售性能邊緣芯片的整機(jī)設(shè)備也一刀切禁掉。打蛇打七寸，沒有了高性能AI處理器芯片，中國(guó)企業(yè)進(jìn)行AI訓(xùn)練和部署的效率必然大打折扣，至少在高端AI應(yīng)用上事倍功半。在目前新項(xiàng)目融資言必提及AI的美國(guó)華爾街，AI市場(chǎng)未來預(yù)期分析一致認(rèn)為，中美兩國(guó)的AI應(yīng)用水平幾乎領(lǐng)先全球其他地方至少3-5年，而兩者之間的差距則微乎其微。如果把AI當(dāng)作未來工業(yè)5.0時(shí)代的標(biāo)準(zhǔn)技術(shù)，要繼續(xù)穩(wěn)固美國(guó)的AI霸權(quán)，目前最直接和唯一有效的手段也只能是扼住AI芯片在中國(guó)應(yīng)用的咽喉了。

在這一背景下，不管是英偉達(dá)最新劃時(shí)代的B200還是英特爾隨后推出的Gaudi 3，都在中文網(wǎng)絡(luò)反響平平，畢竟當(dāng)一眾看客還在驚嘆于兩家公司新推出的AI處理器性能多么彪悍的背后，很多人似乎忘記了這兩款產(chǎn)品從誕生之初就必然跟中國(guó)市場(chǎng)無緣，甚至為了圍追堵截進(jìn)入中國(guó)的通幽曲徑，美國(guó)干脆連一些跟中國(guó)關(guān)系不錯(cuò)的市場(chǎng)也一并禁掉了。

當(dāng)然，貴為如今半導(dǎo)體銷售額第一第二的英特爾和英偉達(dá)也不想放棄中國(guó)市場(chǎng)，畢竟按照某美國(guó)不靠譜分析機(jī)構(gòu)在被管制之前的調(diào)研，中國(guó)AI相關(guān)大算力硬件市場(chǎng)規(guī)模占了全球40%以上。只是不管是英特爾的Gaudi2特供版還是英偉達(dá)的4090特供版，似乎業(yè)界反響都很一般，畢竟閹割后的硬件比國(guó)內(nèi)的AI芯片又能強(qiáng)得了多少？不過據(jù)說搶在禁令前的某批特供版似乎是滿血規(guī)格，市場(chǎng)搶購(gòu)速度堪比小米SU7（畢竟兩者價(jià)格類似）。與之相對(duì)應(yīng)的是，當(dāng)年至少三家國(guó)內(nèi)企業(yè)的GPU新品發(fā)布時(shí)直接對(duì)標(biāo)性能不輸A100，但是面對(duì)閹割版的4090時(shí)似乎都沒有信心一戰(zhàn)，禁令后國(guó)產(chǎn)GPU新品再無“碰瓷”A100的宣傳口徑也值得唏噓。

但是，服務(wù)器加速和AI推理訓(xùn)練應(yīng)用真的只能GPU一家獨(dú)大么？GPU，F(xiàn)PGA和NPU，作為從服務(wù)器加速演進(jìn)到AI算力池構(gòu)建的三大計(jì)算加速利器，卻因?yàn)橛ミ_(dá)在CUDA上的十年生態(tài)鋪墊最后演變成GPU的一家獨(dú)大。這也導(dǎo)致國(guó)內(nèi)部署AI算力的初創(chuàng)公司紛紛以GPU為切入點(diǎn)，甚至跳過PC級(jí)GPU的研發(fā)直接沖刺服務(wù)器和AI訓(xùn)練用GPU。從單純芯片設(shè)計(jì)角度，GPU的結(jié)構(gòu)相對(duì)并不復(fù)雜，但GPU高性能的關(guān)鍵特性國(guó)內(nèi)廠商一個(gè)都沒有，沒有EDA授權(quán)先進(jìn)工藝就用不了這意味著密度上不去，高速傳輸美國(guó)不讓用導(dǎo)致傳輸效率提不起來，現(xiàn)在英偉達(dá)干脆直接要在未來禁止第三方硬件直接套用CUDA，那么對(duì)國(guó)產(chǎn)GPU芯片設(shè)計(jì)公司來說，連GPU在AI算力構(gòu)建中最核心的優(yōu)勢(shì)都不復(fù)存在，既然如此為何不考慮轉(zhuǎn)型走差異化道路呢？

說到AI處理器的差異化競(jìng)爭(zhēng)，無論是服務(wù)器加速，還是AI算力構(gòu)建，從技術(shù)上并不是只有GPU一條路可以走。雖然GPU目前在密度和大規(guī)模簡(jiǎn)單計(jì)算方面存在明顯的優(yōu)勢(shì)，但既然這條路受到各種各樣的限制，為何不嘗試其他幾條路呢？這兩天英特爾發(fā)布的Gaudi 3 就是國(guó)產(chǎn)AI芯片廠商值得學(xué)習(xí)的一個(gè)思路。作為同時(shí)擁有CPU、GPU、NPU和FPGA的處理器傳統(tǒng)巨頭，即使已經(jīng)推出了用于服務(wù)器加速的GPU，并且在至強(qiáng)內(nèi)核上增加了NPU單元，但英特爾真正看重的AI應(yīng)用還是Gaudi 3。

圖片.png

我們先來看看Gaudi 3和Gaudi 2的區(qū)別，Gaudi 3將64個(gè)Tensor processor Core（TPCs）封裝在兩個(gè)計(jì)算Tile中，128GB HBM和共享96MB緩存池且擁有8個(gè)MME，24*200GbE和16個(gè)PCIe5 傳輸接口，借助高速互連技術(shù)兩個(gè)計(jì)算Tile片內(nèi)傳輸效率極高。而上一代Gaudi 2 只有24個(gè)TPC，48MB緩存，以及2個(gè)MME。在算力表現(xiàn)方面，Gaudi 3在BF16精度下可提供4倍的AI計(jì)算能力、1.5倍的內(nèi)存帶寬、2倍的網(wǎng)絡(luò)帶寬，支持大規(guī)模系統(tǒng)橫向擴(kuò)展，最多可擴(kuò)展至8192個(gè)芯片的參考架構(gòu)。相比于Gaudi 2在發(fā)布時(shí)性能方面只能拉著數(shù)年前英偉達(dá)的A100進(jìn)行比較，Gaudi 3在性能方面則挑戰(zhàn)2022年的英偉達(dá)主打產(chǎn)品H100：對(duì)比NVIDIA H100，它在流行LLM上的推理性能領(lǐng)先50％、訓(xùn)練時(shí)間快40％。Gaudi 3預(yù)計(jì)可大幅縮短70億和130億參數(shù)Llama2模型、1750億參數(shù)GPT-3模型的訓(xùn)練時(shí)間。在Llama 70億/700億參數(shù)、Falcon 1800億參數(shù)大型語言模型上，Gaudi 3的推理吞吐量和能效也都非常出色。英特爾宣稱Gaudi 3的AI表現(xiàn)能力不遜色于去年英偉達(dá)推出的H200，但現(xiàn)場(chǎng)并未展示對(duì)比性能數(shù)據(jù)。不過從Gaudi 2 選擇跟H100一樣的臺(tái)積電7nm工藝，到Gaudi 3 選擇跟H200一樣的臺(tái)積電5nm工藝，究竟Gaudi 3 瞄準(zhǔn)的是哪一款英偉達(dá)產(chǎn)品已經(jīng)不言而喻。

圖片.png

為什么我們要說Gaudi 3 的發(fā)布給了很多中國(guó)AI企業(yè)沖擊美國(guó)GPU在AI算力方面霸權(quán)的很好思路借鑒呢？首先，從工藝角度，英特爾放棄自己生產(chǎn)線而選擇臺(tái)積電，這還是在英特爾宣稱的4年5代工藝趕超計(jì)劃進(jìn)展順利的基礎(chǔ)上，現(xiàn)在從官宣量產(chǎn)工藝上英特爾已經(jīng)突破了4nm這個(gè)節(jié)點(diǎn)，甚至一直宣稱自己工藝密度方面比TSMC更好。Gaudi 2和Gaudi 3依然選擇臺(tái)積電代工，說明英特爾把自己挑戰(zhàn)者的姿態(tài)擺得很明白，選擇同樣的工藝確保在密度和成本上不會(huì)有太明顯的差異。更重要的原因是，作為很早就放棄ASIC工藝的英特爾，估計(jì)自己也沒信心去打造可靠的類ASIC晶圓以打造自己對(duì)抗英偉達(dá)的主力軍吧。筆者建議如果英特爾希望更好地挑戰(zhàn)英偉達(dá)的AI霸主地位，還是重拾ASIC制造技藝，同時(shí)好好研究怎么跟自己的Foveros 3D封裝更好地結(jié)合（不過近期據(jù)說英特爾內(nèi)部結(jié)算中制造業(yè)務(wù)錄得的負(fù)利潤(rùn)有點(diǎn)可怕，利潤(rùn)差可能需要1個(gè)蘋果這樣量級(jí)的客戶才能抹平）。其次，Gaudi 3的堆料在NPU方面已經(jīng)堪稱恐怖，當(dāng)然這也是性能提升基礎(chǔ)條件，畢竟習(xí)慣于做復(fù)雜運(yùn)算的英特爾曾經(jīng)并不喜歡用堆料來提升處理能力。對(duì)于AI加速和AI推理應(yīng)用的處理需求，對(duì)比英特爾傳統(tǒng)的CPU計(jì)算需求，大概可以類比于算2的平方和算2的平方差，計(jì)算難度不可同日而語，可是如果只需要計(jì)算2的平方，GPU的運(yùn)算單元幾乎十倍于CPU，這時(shí)候堆運(yùn)算單元才是正解。所以這次Gaudi 3 直接把TPC從24提升到64，MME更是從2擴(kuò)充到8個(gè)，那么AI加速性能表現(xiàn)大幅提升一點(diǎn)也不奇怪。甚至從整個(gè)Gaudi 3目前流出來的架構(gòu)示意中，我們依稀可以看到更加明顯的類ASIC化趨勢(shì)，如果仔細(xì)研究一下從eFPGA到后來的eASIC以及兩大FPGA巨頭的硬件重新ASIC化的趨勢(shì)，AI處理器的關(guān)鍵需求正在推動(dòng)未來NPU和AI加速器芯片重回ASIC。

即使已經(jīng)推出服務(wù)器加速GPU的英特爾還是選擇Gaudi 3作為AI加速突破口，國(guó)內(nèi)廠商應(yīng)該也需要接受短期內(nèi)很難正面對(duì)抗英偉達(dá)GPU在AI應(yīng)用的優(yōu)勢(shì)，特別是CUDA不讓用就更應(yīng)該早點(diǎn)暗度陳倉(cāng)。Gaudi 3第一個(gè)值得國(guó)產(chǎn)AI處理器企業(yè)學(xué)習(xí)的就是選擇新的路線去針對(duì)性瞄準(zhǔn)AI的一個(gè)應(yīng)用方向堆料。可能整個(gè)AI的綜合表現(xiàn)不如GPU，但在某一個(gè)點(diǎn)能有突破才能有破局的機(jī)會(huì)，否則只會(huì)被壓制的越來越狠?，F(xiàn)在的AI內(nèi)核很多，不止有RISC-V這種開源架構(gòu)，還有Arm的Ethos-U AI 加速器及物聯(lián)網(wǎng)參考設(shè)計(jì)平臺(tái)Corstone-320，以及各種IP供應(yīng)商的NPU內(nèi)核，都是可以進(jìn)行相關(guān)AI加速和AI推理等處理器的設(shè)計(jì)。而且部分內(nèi)核IP更適合ASIC化，雖然在成本和靈活性方面有所不足，但是可以彌補(bǔ)在性能方面的不足。按照美國(guó)對(duì)中國(guó)AI產(chǎn)業(yè)的禁運(yùn)標(biāo)準(zhǔn)，性能才是目前中國(guó)AI芯片最需要突破的一環(huán)，先把性能做上去再靠著大規(guī)模應(yīng)用的優(yōu)勢(shì)把成本一點(diǎn)點(diǎn)降下來，這才是合理的路徑。最重要的一點(diǎn)，ASIC化的芯片雖然失去一些靈活性但是性能表現(xiàn)可以在一定程度彌補(bǔ)工藝的不足。因?yàn)閲?guó)內(nèi)現(xiàn)在幾乎無法設(shè)計(jì)先進(jìn)工藝的AI芯片（美國(guó)不讓），因此我們估計(jì)AI芯片的節(jié)點(diǎn)暫時(shí)最理想也是用7nm，但是國(guó)內(nèi)目前先進(jìn)封裝還是有機(jī)會(huì)繼續(xù)選用的，那么最終產(chǎn)品的性能表現(xiàn)似乎也不會(huì)相比于國(guó)際頂尖水平差太多。最最重要的是，美國(guó)目前禁運(yùn)的技術(shù)指標(biāo)參考的兩點(diǎn)是芯片內(nèi)傳輸速率和計(jì)算能力TFLOPS，但是如果你做成ASIC后，這兩個(gè)指標(biāo)的要求其實(shí)可以適當(dāng)降低，但不影響最終芯片的整體性能表現(xiàn)（ASIC固化的優(yōu)勢(shì)），這樣是不是就可以一定程度上繞開美國(guó)禁令中禁止代工廠生產(chǎn)中國(guó)廠商AI芯片的部分性能要求，從而能夠做出實(shí)際應(yīng)用表現(xiàn)超越管制技術(shù)規(guī)格的產(chǎn)品。

當(dāng)然最后一條似乎也是當(dāng)初中國(guó)特供版Gaudi2 的一些技巧，雖然中國(guó)特供版Gaudi2晚了一年問世，但目前看Gaudi 3短期內(nèi)是不要想有特供版了，除非鎖死一半的TCPs以及降低三分之一片內(nèi)傳輸速率，否則根本沒可能繞開禁令中的性能和傳輸要求。當(dāng)然如果真那樣了，那跟現(xiàn)在的Gaudi2 又有什么區(qū)別呢？

作為旁觀者，我們不妨去關(guān)注Gaudi 3 挑戰(zhàn)H200的實(shí)際表現(xiàn)和市場(chǎng)接受程度，雖然中國(guó)市場(chǎng)幾乎不太可能體驗(yàn)到Gaudi 3 但卻為國(guó)內(nèi)AI處理器設(shè)計(jì)廠商提供了正面挑戰(zhàn)英偉達(dá) GPU在AI應(yīng)用霸權(quán)的新思路，希望這能為國(guó)產(chǎn)AI芯片百花齊放帶來有益借鑒。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： GPU AI Intel Gaudi3

評(píng)論

相關(guān)推薦

用于電機(jī)調(diào)速的新型單片微機(jī)80C196MD詳細(xì)介紹

資源下載 intel 電機(jī)調(diào)速單片微機(jī) 80C196MD | 2007-02-09

Blackfin系列DSP原理與系統(tǒng)設(shè)計(jì)電子書(4)

資源下載 ADI Intel Blackfin DSP 程序設(shè)計(jì) AD | 2007-02-09

Intel IOP 80219&IOP 80331 IO處理器

資源下載 Intel IOP 80219 IOP 80331 IO處理器 | 2007-02-09

2010年英特爾杯大學(xué)生嵌入式設(shè)計(jì)大賽宣傳片 ③

視頻 Intel 嵌入式設(shè)計(jì)大賽 | 2010-03-26

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

Intel 875p主板MCH控制芯片電路圖

設(shè)計(jì)方案 Intel 主板控制芯片電路圖 | 2012-07-25

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

顛覆Intel的技術(shù)神話

liujt_ic | 2002-12-21

IDF 2010 MeeGo展區(qū)QT介紹

視頻 Intel MeeGo | 2010-04-19

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

消息稱英偉達(dá) RTX 4070 及以上顯卡因 GDDR6X 顯存缺貨 8 月供應(yīng)緊張

消費(fèi)電子英偉達(dá) GPU | 2024-07-29

求教intel StrongArm SA-1110 寫FLASH的問題(老站轉(zhuǎn))

amine | 2002-07-29

2010年英特爾杯大學(xué)生嵌入式設(shè)計(jì)大賽宣傳片 ①

視頻 Intel 嵌入式設(shè)計(jì)大賽 | 2010-03-26

傳AMD富士通要合閃存業(yè)務(wù)奪Intel龍頭寶座

hpnet | 2002-10-11

電腦主板電路 Intel 830 chipset

設(shè)計(jì)方案電腦主板 Intel chipset | 2012-07-25

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋果 AI 谷歌定制芯片 | 2024-07-30

Intel hex 文件格式

資源下載單片機(jī) Intel hex 文件格式 | 2007-02-16

請(qǐng)教：Intel的網(wǎng)絡(luò)芯片82559和82559er之間的區(qū)別？？

seasoblue | 2002-12-05

2010年英特爾杯大學(xué)生嵌入式設(shè)計(jì)大賽宣傳片 ②

視頻 Intel 嵌入式設(shè)計(jì)大賽 | 2010-03-26

Intel 875p主板調(diào)試接口ITP電路圖

設(shè)計(jì)方案 Intel 主板調(diào)試接口電路圖 | 2012-07-25

ATX開關(guān)穩(wěn)壓電源與CRT顯示器電路圖集000068-INTEL MODEL NO FM370 主要元件位置電路圖

設(shè)計(jì)方案開關(guān) 穩(wěn)壓電源顯示器圖集 000068-INTEL MO | 2010-09-01

國(guó)際奧委會(huì)：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會(huì) 體育 | 2024-07-26

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

iPhone 16將不會(huì)預(yù)裝AI功能？計(jì)劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

Meta訓(xùn)練Llama 3遭遇頻繁故障

智能計(jì)算 Meta Llama 3 英偉達(dá) H100 顯卡 GPU | 2024-07-29

大連Moblin研討會(huì)視頻 II

視頻 Intel Moblin | 2010-04-19

WTC-AI太陽(yáng)能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

Intel ATCA

資源下載 Intel AdvancedTCA CPU設(shè)計(jì) | 2007-02-09

SEMI日本總裁稱先進(jìn)封裝應(yīng)統(tǒng)一：臺(tái)積電、三星、Intel三巨頭誰會(huì)答應(yīng)

EDA/PCB SEMI 封裝臺(tái)積電三星 Intel | 2024-07-29

芯片巨人Intel未來Itanium處理器計(jì)劃曝光

hpnet | 2003-01-19

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();