<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計(jì)算 > 市場分析 > AI 芯片的未來,未必是 GPU

          AI 芯片的未來,未必是 GPU

          作者: 時(shí)間:2024-07-02 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

          在人工智能計(jì)算架構(gòu)的布局中,CPU 與加速芯片協(xié)同工作的模式已成為一種典型的 AI 部署方案。CPU 扮演基礎(chǔ)算力的提供者角色,而加速芯片則負(fù)責(zé)提升計(jì)算性能,助力算法高效執(zhí)行。常見的 AI 加速芯片按其技術(shù)路徑,可劃分為 、FPGA 和 ASIC 三大類別。

          本文引用地址:http://www.ex-cimer.com/article/202407/460549.htm

          在這場競爭中, 憑借其獨(dú)特的優(yōu)勢成為主流的 AI 芯片。那么, 是如何在眾多選項(xiàng)中脫穎而出的呢?展望 AI 的未來,GPU 是否仍是唯一解呢?

          GPU 如何制勝當(dāng)下?

          AI 與 GPU 之間存在著密切的關(guān)系。

          強(qiáng)大的并行計(jì)算能力

          AI 大模型指的是規(guī)模龐大的深度學(xué)習(xí)模型,它們需要處理海量的數(shù)據(jù)和進(jìn)行復(fù)雜的計(jì)算。GPU 的核心優(yōu)勢就在于其強(qiáng)大的并行計(jì)算能力。與傳統(tǒng)的 CPU 相比,GPU 能夠同時(shí)處理多個(gè)任務(wù),特別適合處理大規(guī)模數(shù)據(jù)集和復(fù)雜計(jì)算任務(wù)。在深度學(xué)習(xí)等需要大量并行計(jì)算的領(lǐng)域,GPU 展現(xiàn)出了無可比擬的優(yōu)勢。

          完善的生態(tài)系統(tǒng)

          其次,為了便于開發(fā)者充分利用 GPU 的計(jì)算能力,各大廠商提供了豐富的軟件庫、框架和工具。例如,英偉達(dá)的 CUDA 平臺就為開發(fā)者提供了豐富的工具和庫,使得 AI 應(yīng)用的開發(fā)和部署變得相對容易。這使得 GPU 在需要快速迭代和適應(yīng)新算法的場景中更具競爭力。

          通用性好

          GPU 最初是用于圖形渲染的,但隨著時(shí)間的推移,它的應(yīng)用領(lǐng)域逐漸擴(kuò)大。如今,GPU 不僅在圖形處理中發(fā)揮著核心作用,還廣泛應(yīng)用于深度學(xué)習(xí)、大數(shù)據(jù)分析等領(lǐng)域。這種通用性使得 GPU 能夠滿足多種應(yīng)用需求,而 ASIC 和 FPGA 等專用芯片則局限于特定場景。

          有人將 GPU 比作一把通用的多功能廚具,適用于各種烹飪需求。因此在 AI 應(yīng)用的大多數(shù)情況下,GPU 都被視為最佳選擇。相應(yīng)的,功能多而廣的同時(shí)往往伴隨著特定領(lǐng)域不夠「精細(xì)」,

          接下來看一下,相較其他類型的加速芯片,GPU 需要面臨哪些掣肘?


          GPU 也存在它的掣肘

          文首提到,常見的 AI 加速芯片根據(jù)其技術(shù)路徑,可以劃分為 GPU、FPGA 和 ASIC 三大類別。

          FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列),是一種半定制芯片。用戶可以根據(jù)自身的需求進(jìn)行重復(fù)編程。FPGA 的優(yōu)點(diǎn)是既解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn),對芯片硬件層可以靈活編譯,功耗小于 CPU、GPU;缺點(diǎn)是硬件編程語言較難,開發(fā)門檻較高,芯片成本、價(jià)格較高。FPGA 比 GPU、CPU 更快是因?yàn)槠渚哂卸ㄖ苹慕Y(jié)構(gòu)。

          ASIC(Application Specific Integrated Circuit 特定用途集成電路)根據(jù)產(chǎn)品的需求進(jìn)行特定設(shè)計(jì)和制造的集成電路,其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于 GPU、FPGA,但初始投入大,專業(yè)性強(qiáng)縮減了其通用性,算法一旦改變,計(jì)算能力會大幅下降,需要重新定制。

          再看 GPU 相較于這兩類芯片存在哪些劣勢。

          第一點(diǎn),GPU 的單位成本理論性能低于 FPGA、ASIC。

          從成本角度看,GPU、FPGA、ASIC 三種硬件從左到右,從軟件到硬件,通用性逐漸降低、越專用,可定制化逐漸提高,相應(yīng)的設(shè)計(jì)、開發(fā)成本逐漸提高,但是單位成本理論性能越高。舉個(gè)例子,對于還在實(shí)驗(yàn)室階段的經(jīng)典算法或深度學(xué)習(xí)算法,使用 GPU 做軟件方面的探索就很合適;對于已經(jīng)逐漸成為標(biāo)準(zhǔn)的技術(shù),適合使用 FPGA 做硬件加速部署;對于已經(jīng)成為標(biāo)準(zhǔn)的計(jì)算任務(wù),則直接推出專用芯片 ASIC。

          從公司的角度來說,同樣對于大批量數(shù)據(jù)的計(jì)算任務(wù),同等內(nèi)存大小、同等算力的成熟 GPU 和 FPGA 的部署成本相近。 如果公司的業(yè)務(wù)邏輯經(jīng)常變化,比如 1-2 年就要變化一次,那么 GPU 的開發(fā)成本低、部署速度快;如果公司業(yè)務(wù) 5 年左右才變化一次,F(xiàn)PGA 開發(fā)成本雖高、但芯片本身的成本相比 GPU 低很多。

          第二點(diǎn),GPU 的運(yùn)算速度要遜色于 FPGA 和 ASIC。

          FPGA、ASIC 和 GPU 內(nèi)都有大量的計(jì)算單元,因此它們的計(jì)算能力都很強(qiáng)。在進(jìn)行神經(jīng)網(wǎng)絡(luò)運(yùn)算的時(shí)候,三者的速度會比 CPU 快很多。但是 GPU 由于架構(gòu)固定,硬件原生支持的指令也就固定了,而 FPGA 和 ASIC 則是可編程的,其可編程性是關(guān)鍵,因?yàn)樗屲浖c終端應(yīng)用公司能夠提供與其競爭對手不同的解決方案,并且能夠靈活地針對自己所用的算法修改電路。

          因此在很多場景的應(yīng)用中,F(xiàn)PGA 和 ASIC 的運(yùn)算速度要大大優(yōu)于 GPU。

          具體到場景應(yīng)用,GPU 浮點(diǎn)運(yùn)算能力很強(qiáng),適合高精度的神經(jīng)網(wǎng)絡(luò)計(jì)算;FPGA 并不擅長浮點(diǎn)運(yùn)算,但是對于網(wǎng)絡(luò)數(shù)據(jù)包、視頻流可以做到很強(qiáng)的流水線處理;ASIC 則根據(jù)成本有幾乎無限的算力,取決于硬件設(shè)計(jì)者。

          第三點(diǎn),GPU 的功耗遠(yuǎn)遠(yuǎn)大于 FPGA 和 ASIC。

          再看功耗。GPU 的功耗,是出了名的高,單片可以達(dá)到 250W,甚至 450W(RTX4090)。而 FPGA 一般只有 30~50W。這主要是因?yàn)閮?nèi)存讀取。GPU 的內(nèi)存接口(GDDR5、HBM、HBM2)帶寬極高,大約是 FPGA 傳統(tǒng) DDR 接口的 4-5 倍。但就芯片本身來說,讀取 DRAM 所消耗的能量,是 SRAM 的 100 倍以上。GPU 頻繁讀取 DRAM 的處理,產(chǎn)生了極高的功耗。另外,F(xiàn)PGA 的工作主頻(500MHz 以下)比 CPU、GPU(1~3GHz)低,也會使得自身功耗更低。

          再看 ASIC,ASIC 的性能和功耗優(yōu)化是針對特定應(yīng)用進(jìn)行的,因此在特定任務(wù)上性能更高、功耗更低。由于設(shè)計(jì)是針對特定功能的,ASIC 在執(zhí)行效率和能效比方面通常優(yōu)于 FPGA。

          舉個(gè)例子,在智能駕駛這樣的領(lǐng)域,環(huán)境感知、物體識別等深度學(xué)習(xí)應(yīng)用要求計(jì)算響應(yīng)方面必須更快的同時(shí),功耗也不能過高,否則就會對智能汽車的續(xù)航里程造成較大影響。

          第四點(diǎn),GPU 時(shí)延高于 FPGA、ASIC。FPGA 相對于 GPU 具有更低的延遲。GPU 通常需要將不同的訓(xùn)練樣本,劃分成固定大小的「Batch(批次)」,為了最大化達(dá)到并行性,需要將數(shù)個(gè) Batch 都集齊,再統(tǒng)一進(jìn)行處理。

          FPGA 的架構(gòu),是無批次的。每處理完成一個(gè)數(shù)據(jù)包,就能馬上輸出,時(shí)延更有優(yōu)勢。ASIC 也是實(shí)現(xiàn)極低延遲的另一種技術(shù)。在針對特定任務(wù)進(jìn)行優(yōu)化后,ASIC 通常能夠?qū)崿F(xiàn)比 FPGA 更低的延遲,因?yàn)樗梢韵?FPGA 中可能存在的額外編程和配置開銷。

          既如此,為什么 GPU 還會成為現(xiàn)下 AI 計(jì)算的大熱門呢?

          在當(dāng)前的市場環(huán)境下,由于各大廠商對于成本和功耗的要求尚未達(dá)到嚴(yán)苛的程度,加之英偉達(dá)在 GPU 領(lǐng)域的長期投入和積累,使得 GPU 成為了當(dāng)前最適合大模型應(yīng)用的硬件產(chǎn)品。盡管 FPGA 和 ASIC 在理論上具有潛在的優(yōu)勢,但它們的開發(fā)過程相對復(fù)雜,目前在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn),難以廣泛普及。因此,眾多廠商紛紛選擇 GPU 作為解決方案,這也導(dǎo)致了第五點(diǎn)潛在問題的浮現(xiàn)。

          第五點(diǎn),高端 GPU 的產(chǎn)能問題也令人焦慮。

          OpenAI 首席科學(xué)家 IlyaSutskever?表示,GPU 就是新時(shí)代的比特幣。在算力激增的背景下,英偉達(dá)的 B 系列和 H 系列 GPU 成為「硬通貨」。

          然而,雖然該系列需求十分旺盛,但考慮到 HBM 和 CoWos 供需緊張,以及臺積電先進(jìn)產(chǎn)能吃緊的情況,GPU 產(chǎn)能實(shí)在無法跟得上需求。

          要知道「巧婦難為無米之炊」,在這種形勢下,科技巨頭們需要更加靈活地應(yīng)對市場變化,囤積更多的 GPU 產(chǎn)品或者尋找替代方案。

          如今已經(jīng)有不少廠商開始另辟蹊徑,在 GPU 之外的道路上探索并研發(fā)更為專業(yè)化、精細(xì)化的計(jì)算設(shè)備和解決方案。那么未來的 AI 加速芯片又將如何發(fā)展?


          科技巨頭另辟蹊徑

          在當(dāng)下這個(gè)科技發(fā)展極快、算法以月為單位更迭的大數(shù)據(jù)時(shí)代,GPU 確實(shí)適合更多人;但是一旦未來的商業(yè)需求固定下來,F(xiàn)PGA 甚至 ASIC 則會成為更好的底層計(jì)算設(shè)備。

          各芯片龍頭和科技龍頭也早已開始研發(fā)生產(chǎn)專用于深度學(xué)習(xí)、DNN 的運(yùn)算芯片或基于 FPGA 架構(gòu)的半定制芯片,代表產(chǎn)品有 Google 研發(fā)的張量計(jì)算處理器 、 Intel 旗下的 Altera Stratix V FPGA 等。

          Google 押注定制化的 ASIC 芯片:

          Google 早在 2013 年就秘密研發(fā)專注 AI 機(jī)器學(xué)習(xí)算法芯片,并用于云計(jì)算數(shù)據(jù)中心,取代英偉達(dá) GPU。

          這款 自研芯片 2016 年公開,為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運(yùn)算,如自然語言處理、計(jì)算機(jī)視覺和推薦系統(tǒng)模型。Google 其實(shí)在 2020 年的資料中心便建構(gòu) AI 芯片 TPU v4,直到 2023 年 4 月才首次公開細(xì)節(jié)。

          值得注意的是 TPU 是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計(jì),并專門用于機(jī)器學(xué)習(xí)工作負(fù)載。

          2023 年 12 月 6 日,谷歌官宣了全新的多模態(tài)大模型 Gemini,包含了三個(gè)版本,根據(jù)谷歌的基準(zhǔn)測試結(jié)果,其中的 Gemini Ultra 版本在許多測試中都表現(xiàn)出了「最先進(jìn)的性能」,甚至在大部分測試中完全擊敗了 OpenAI 的 GPT-4。

          而在 Gemini 出盡了風(fēng)頭的同時(shí),谷歌還丟出了另一個(gè)重磅炸彈——全新的自研芯片 TPU v5p,它也是迄今為止功能最強(qiáng)大的 TPU。根據(jù)官方提供的數(shù)據(jù),每個(gè) TPU v5p pod 在三維環(huán)形拓?fù)浣Y(jié)構(gòu)中,通過最高帶寬的芯片間互聯(lián)(ICI),以 4800 Gbps/chip 的速度將 8960 個(gè)芯片組合在一起,與 TPU v4 相比,TPU v5p 的 FLOPS 和高帶寬內(nèi)存(HBM)分別提高了 2 倍和 3 倍。

          隨后在今年 5 月,谷歌又宣布了第六代數(shù)據(jù)中心 AI 芯片 Tensor 處理器單元--Trillium,并表示將于今年晚些時(shí)候推出交付。谷歌表示,第六代 Trillium 芯片的計(jì)算性能比 TPU v5e 芯片提高 4.7 倍,能效比 v5e 高出 67%。這款芯片旨在為從大模型中生成文本和其他內(nèi)容的技術(shù)提供動力。谷歌還表示,第六代 Trillium 芯片將在今年年底可供其云客戶使用。

          據(jù)悉,英偉達(dá)在 AI 芯片市場的市占高達(dá) 80% 左右,其余 20% 的絕大部分由各種版本的谷歌 TPU 所控制。谷歌自身不出售芯片,而是通過其云計(jì)算平臺租用訪問權(quán)限。

          微軟:推出基于 Arm 架構(gòu)的通用型芯片 、ASIC 芯片 Maia 100

          2023 年 11 月,微軟在 Ignite 技術(shù)大會上發(fā)布了首款自家研發(fā)的 AI 芯片 Azure Maia 100,以及應(yīng)用于云端軟件服務(wù)的芯片 Azure 。兩款芯片將由臺積電代工,采用 5nm 制程技術(shù)。

          據(jù)悉,英偉達(dá)的高端產(chǎn)品一顆有時(shí)可賣到 3 萬到 4 萬美元,用于 ChatGPT 的芯片被認(rèn)為大概就需要有 1 萬顆,這對 AI 公司是個(gè)龐大成本。有大量 AI 芯片需求的科技大廠極力尋求可替代的供應(yīng)來源,微軟選擇自行研發(fā),便是希望增強(qiáng) ChatGPT 等生成式 AI 產(chǎn)品的性能,同時(shí)降低成本。

          是基于 Arm 架構(gòu)的通用型芯片,具有 128 個(gè)核心,Maia 100 是一款專為 Azure 云服務(wù)和 AI 工作負(fù)載設(shè)計(jì)的 ASIC 芯片,用于云端訓(xùn)練和推理的,晶體管數(shù)量達(dá)到 1050 億個(gè)。這兩款芯片將導(dǎo)入微軟 Azure 數(shù)據(jù)中心,支持 OpenAI、Copilot 等服務(wù)。

          負(fù)責(zé) Azure 芯片部門的副總裁 Rani Borkar 表示,微軟已開始用 Bing 和 Office AI 產(chǎn)品測試 Maia 100 芯片,微軟主要 AI 合作伙伴、ChatGPT 開發(fā)商 OpenAI,也在進(jìn)行測試中。有市場評論認(rèn)為,微軟 AI 芯片立項(xiàng)的時(shí)機(jī)很巧,正好在微軟、OpenAI 等公司培養(yǎng)的大型語言模型已經(jīng)開始騰飛之際。

          不過,微軟并不認(rèn)為自己的 AI 芯片可以廣泛替代英偉達(dá)的產(chǎn)品。有分析認(rèn)為,微軟的這一努力如果成功的話,也有可能幫助它在未來與英偉達(dá)的談判中更具優(yōu)勢。

          據(jù)悉,微軟有望在即將到來的 Build 技術(shù)大會上發(fā)布一系列云端軟硬件技術(shù)新進(jìn)展。而備受關(guān)注的是,微軟將向 Azure 用戶開放其自研的 AI 芯片 Cobalt 100 的使用權(quán)限。

          英特爾押注 FPGA 芯片

          英特爾表示,早期的人工智能工作負(fù)載,比如圖像識別,很大程度上依賴于并行性能。因?yàn)?GPU 是專門針對視頻和顯卡設(shè)計(jì)的,因此,將其應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)變得很普遍。GPU 在并行處理方面表現(xiàn)出色,并行執(zhí)行大量計(jì)算操作。換句話說,如果必須多次快速執(zhí)行同一工作負(fù)載,它們可以實(shí)現(xiàn)令人難以置信的速度提高。

          但是,在 GPU 上運(yùn)行人工智能是存在局限的。GPU 不能夠提供與 ASIC 相媲美的性能,后者是一種針對給定的深度學(xué)習(xí)工作負(fù)載專門構(gòu)建的芯片。

          而 FPGA 則能夠借助集成的人工智能提供硬件定制,并且可以通過編程提供與 GPU 或 ASIC 相類似的工作方式。FPGA 可重新編程、重新配置的性質(zhì)使其格外適合應(yīng)用于飛速演變的人工智能領(lǐng)域,這樣,設(shè)計(jì)人員就能夠快速測試算法,并將產(chǎn)品加速推向市場。

          英特爾 FPGA 家族包括英特爾 Cyclone 10 GX FPGA、英特爾 Arria 10 GX FPGA 和英特爾 Stratix 10 GX FPGA 等。這些產(chǎn)品具備 I/O 靈活性、低功耗(或每次推理的能耗)和低時(shí)延,本就可在 AI 推理上帶來優(yōu)勢。這些優(yōu)勢在三個(gè)全新的英特爾 FPGA 和片上系統(tǒng)家族的產(chǎn)品中又得到了補(bǔ)充,使得 AI 推理性能進(jìn)一步獲得了顯著提升。這三個(gè)家族分別是英特爾 Stratix 10 NX FPGA 以及英特爾 Agilex FPGA 家族的新成員:英特爾 Agilex D 系列 FPGA,和代號為「Sundance Mesa」的全新英特爾 Agilex 設(shè)備家族。這些英特爾 FPGA 和 SoC 家族包含專門面向張量數(shù)學(xué)運(yùn)算優(yōu)化的專用 DSP 模塊,為加速 AI 計(jì)算奠定了基礎(chǔ)。

          今年 3 月,芯片巨頭英特爾宣布成立全新獨(dú)立運(yùn)營的 FPGA 公司——Altera。英特爾在 2015 年 6 月以 167 億美元收購 Altera,被收購時(shí) Altera 是全球第二大 FPGA 公司,九年后英特爾決定讓 FPGA 業(yè)務(wù)獨(dú)立運(yùn)營,再次選擇以 Altera 命名。

          (Neural Processing Unit) 也是一種參考人體神經(jīng)突觸的 ASIC 芯片。隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的興起,CPU 和 GPU 逐漸難以滿足深度學(xué)習(xí)的需要,專門用于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的處理器 應(yīng)運(yùn)而生。 采用「數(shù)據(jù)驅(qū)動并行計(jì)算」的架構(gòu),特別擅長處理視頻、圖像類的海量多媒體數(shù)據(jù)。區(qū)別于 CPU 以及 GPU 所遵循的馮諾依曼架構(gòu),NPU 參考人體的神經(jīng)突觸結(jié)構(gòu),將存儲與運(yùn)算結(jié)為一體。

          Arm 近日宣布推出 Ethos-U85 NPU。作為 Arm 面向邊緣 AI 的第三代 NPU 產(chǎn)品,Ethos-U85 適用于工業(yè)自動化和視頻監(jiān)控等場景,在性能方面提升了四倍。Ethos-U85 較上一代產(chǎn)品在能效方面擁有 20% 的提升,還可在常用神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn) 85% 的利用率。其在設(shè)計(jì)上適合基于 Arm Cortex-M / A 處理器內(nèi)核的系統(tǒng),能接受較高的內(nèi)存延遲。

          協(xié)同、訓(xùn)練推理融合、具備統(tǒng)一生態(tài)的系列化智能芯片產(chǎn)品和平臺化基礎(chǔ)系統(tǒng)軟件。寒武紀(jì)產(chǎn)品廣泛應(yīng)用于服務(wù)器廠商和產(chǎn)業(yè)公司,面向互聯(lián)網(wǎng)、金融、交通、能源、電力和制造等

          此外,OpenAI 也正在探索自研 AI 芯片,同時(shí)開始評估潛在收購目標(biāo)。AWS 自研 AI 芯片陣容包括推理芯片 Inferentia 和訓(xùn)練芯片 Trainium。 電動汽車制造商特斯拉也積極參與 AI 加速器芯片的開發(fā)。特斯拉主要圍繞自動駕駛需求,迄今為止推出了兩款 AI 芯片:全自動駕駛(FSD)芯片和 Dojo D1 芯片。

          去年 5 月Meta 披露了旗下數(shù)據(jù)中心項(xiàng)目支持 AI 工作的細(xì)節(jié),提到已經(jīng)打造一款定制芯片,簡稱 ,用于加快生成式 AI 模型的訓(xùn)練。這是 Meta 首次推出 AI 定制芯片。Meta 稱, 是加快 AI 訓(xùn)練和推理工作負(fù)載的芯片「家族」的一分子。此外,Meta 介紹, 采用開源芯片架構(gòu) RISC-V,它的功耗僅有 25 瓦,遠(yuǎn)低于英偉達(dá)等主流芯片廠商的產(chǎn)品功耗。值得注意的是,今年 4 月,Meta 公布了自主研發(fā)芯片 MTIA 的最新版本。分析指出,Meta 的目標(biāo)是降低對英偉達(dá)等芯片廠商的依賴。



          關(guān)鍵詞: GPU TPU NPU Cobalt MTIA

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();