刷屏的清華AI光芯片,突破了什么?
最近,清華大學(xué)傳出了好消息。首創(chuàng) AI 光芯片架構(gòu),研制全新 AI「光芯片」——太極(Taichi),可以實(shí)現(xiàn) 160 TOPS/W 通用智能計(jì)算,能效是 H100 的 1000 倍。
本文引用地址:http://www.ex-cimer.com/article/202404/458166.htm訓(xùn)練下一代萬(wàn)億級(jí)參數(shù)大模型的高效芯片誕生了。目前,相關(guān)研究論文以「Large-scale photonic chiplet Taichi empowers 160-TOPS/W artificial general intelligence」為題,已發(fā)表在權(quán)威科學(xué)期刊 Science 上。
論文地址:https://www.science.org/doi/10.1126/science.adl1203
成果是什么?
當(dāng)前,越來(lái)越多跡象表明,LLM 不會(huì)是通往 AGI 的最終路徑。
計(jì)算機(jī)早已經(jīng)成為世界能耗巨頭,隨著越來(lái)越多耗電量大的人工智能投入使用,計(jì)算機(jī)的能源需求也飛速上漲。
以英偉達(dá) H100 為例,其峰值功耗為 700 瓦,按照 61% 的年利用率計(jì)算,相當(dāng)于一個(gè)美國(guó)家庭的平均功耗(假設(shè)每個(gè)家庭 2.51 人)。有專家預(yù)測(cè),在大量部署 H100 后,總功耗將于一座美國(guó)大城市不相上下,甚至超過(guò)一些歐洲小國(guó)。
若是能夠發(fā)明一種,節(jié)省大量能耗的芯片,LLM 的性能或在未來(lái)實(shí)現(xiàn)更大的提升。
而太極,可能會(huì)讓通用人工智能(AGI)成為現(xiàn)實(shí)。
根據(jù)清華大學(xué)官網(wǎng)介紹,清華團(tuán)隊(duì)設(shè)計(jì)了基于集成衍射干涉異構(gòu)設(shè)計(jì)和通用分布式計(jì)算架構(gòu)的大規(guī)模光芯片——太極,該架構(gòu)具有上千萬(wàn)個(gè)神經(jīng)元的能力,實(shí)現(xiàn) 160 萬(wàn)億次/秒·瓦(TOPS/W)的通用智能計(jì)算。
此外,在太極光芯片在實(shí)驗(yàn)中實(shí)現(xiàn)了芯片上 1000 個(gè)類別級(jí)別的分類(在 1623 類別的 Omniglot 數(shù)據(jù)集上準(zhǔn)確率為 91.89%)和高保真的人工智能生成的內(nèi)容,效率提高了兩個(gè)數(shù)量級(jí)。
研究人員表示,「太極」為大規(guī)模的光子計(jì)算和高級(jí)任務(wù)鋪平了道路,進(jìn)一步發(fā)掘了光子學(xué)在現(xiàn)代 AGI 中的靈活性和潛力。
Science 對(duì)這個(gè)研究有高度評(píng)論:「來(lái)自清華的團(tuán)隊(duì)探索了分布式衍射干涉混合光計(jì)算架構(gòu),有效地將光神經(jīng)網(wǎng)絡(luò)(ONN)的規(guī)模提高到百萬(wàn)神經(jīng)元級(jí)別。通過(guò)實(shí)驗(yàn)實(shí)現(xiàn)了一個(gè)芯片上 1396 萬(wàn)個(gè)神經(jīng)元的 ONN,用于復(fù)雜的、千類級(jí)的分類和人工智能生成的內(nèi)容任務(wù)。這項(xiàng)工作是向現(xiàn)實(shí)世界的光計(jì)算邁出的有希望的一步,支持人工智能中的各種應(yīng)用?!?/span>
什么東西,有什么用?
電子芯片的瓶頸
當(dāng)電子通過(guò)晶體管和其他傳統(tǒng)集成電路元件時(shí),會(huì)遇到阻力并產(chǎn)生熱量。隨著設(shè)計(jì)者不斷將各種元件添加到芯片上,芯片產(chǎn)生的熱量自然會(huì)升高。電子這一特性甚至成為了微型芯片性能提升的障礙,同時(shí)也是計(jì)算機(jī)能耗如此之高的主要原因。
以電子為載體的技術(shù)發(fā)展已趨近物理極限,芯片尺寸降到極致時(shí)出現(xiàn)的「功耗墻」難題,訪存瓶頸下大量信息存儲(chǔ)不過(guò)來(lái)、計(jì)算不過(guò)來(lái),以及電子芯片性能提升的同時(shí)性價(jià)比降低。
在電路上,用光子替代電子的設(shè)想由來(lái)已久。
20 世紀(jì)六七十年代,研究者就已經(jīng)開始開發(fā)光子芯片了。那時(shí)候,部分專家預(yù)計(jì)光子芯片會(huì)像傳統(tǒng)集成芯片一樣迅速微型化。
電路能耗降低,還是歸功于光的性質(zhì)。光子芯片不存在電阻問(wèn)題。因?yàn)橛设D射產(chǎn)生的光子能快速通過(guò)波導(dǎo)、調(diào)制器、反射器等原件陣列。因此,光子芯片產(chǎn)生熱量更少,能耗也更低。
光為載體的計(jì)算芯片
光計(jì)算,顧名思義是將計(jì)算載體從電變?yōu)楣?,利用光在芯片中的傳播進(jìn)行計(jì)算。
人工智能時(shí)代是由算力支撐起來(lái)的,從能耗的角度來(lái)看,硅光技術(shù)能夠有效提升 GPU 的整體性能、大幅降低其功耗,有效解決目前的算力瓶頸。也就是說(shuō),下一代算力很可能會(huì)是光子計(jì)算甚至量子計(jì)算。
問(wèn)題在于,當(dāng)前的集成光子計(jì)算,特別是光學(xué)神經(jīng)網(wǎng)絡(luò)(ONN),通常包含數(shù)百到數(shù)千個(gè)參數(shù),其中數(shù)十個(gè)是可調(diào)參數(shù),僅支持基本任務(wù),如簡(jiǎn)單的模式識(shí)別和元音識(shí)別。能夠進(jìn)行一些簡(jiǎn)單任務(wù)和淺層模型,無(wú)法支撐亟需高算力與高能效的復(fù)雜大模型智能計(jì)算。
光計(jì)算對(duì)于集成度的要求會(huì)更高,但其技術(shù)難點(diǎn)其實(shí)并不只在集成,在計(jì)算單元循環(huán)使用和非線性處理方面挑戰(zhàn)更大。
據(jù)了解,一個(gè)巨大的 AI 模型中,每一層網(wǎng)絡(luò)都需要進(jìn)行矩陣運(yùn)算,一個(gè)大矩陣還可能需要拆成幾個(gè)小矩陣進(jìn)行計(jì)算。也就是說(shuō),在大模型中,矩陣乘加運(yùn)算是一個(gè)反復(fù)、循環(huán)的計(jì)算過(guò)程,每次循環(huán),矩陣上的元素權(quán)重都會(huì)被更新。
與電子相比,光的矩陣乘加運(yùn)算非常快,但一涉及到權(quán)重的更新,光的速度就會(huì)變慢。
要實(shí)現(xiàn)大規(guī)模、高能效的光子計(jì)算,簡(jiǎn)單地?cái)U(kuò)大現(xiàn)有的光子神經(jīng)網(wǎng)絡(luò)芯片是不現(xiàn)實(shí)的,因?yàn)殡S著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,不可避免的模擬噪聲會(huì)呈指數(shù)級(jí)擴(kuò)大。放大現(xiàn)有架構(gòu)的規(guī)模并不能成比例地提高性能。
新架構(gòu):分布式衍射-干涉混合光子計(jì)算架構(gòu)
清華團(tuán)隊(duì)進(jìn)行了架構(gòu)方面的研究,「從 0 到 1」重新設(shè)計(jì)適合光計(jì)算的新架構(gòu)。
根據(jù)論文介紹,清華團(tuán)隊(duì)為采用分布式計(jì)算的太極,構(gòu)建了一個(gè)深度較淺但寬度較廣的網(wǎng)絡(luò)結(jié)構(gòu)。
與為深度計(jì)算堆疊一系列層的傳統(tǒng)方法不同,Taichi 將計(jì)算資源分布到多個(gè)獨(dú)立的集群中,為子任務(wù)分別組織集群,并最終合成這些子任務(wù),從而完成復(fù)雜的高級(jí)任務(wù)。
具體地說(shuō),光學(xué)衍射層的完全連通特性,可以提供比傳統(tǒng) DNN 中的卷積層更大的變形能力。
這意味著光學(xué)網(wǎng)絡(luò)有可能用比電子系統(tǒng)更少的層數(shù)實(shí)現(xiàn)相同的變換。
圖中(B)中展示了「太極」芯片,包括用于大規(guī)模輸入和輸出數(shù)據(jù)的雙衍射單元,以及用于可重構(gòu)特征嵌入和硬件多路復(fù)用的 MZI 陣列的可調(diào)矩陣乘法。
論文第一作者、電子系博士生徐智昊介紹:「在「太極」架構(gòu)中,自頂向下的編碼拆分-解碼重構(gòu)機(jī)制,將復(fù)雜智能任務(wù)化繁為簡(jiǎn),拆分為多通道高并行的子任務(wù),構(gòu)建的分布式『大感受野』淺層光網(wǎng)絡(luò)對(duì)子任務(wù)分而治之,突破物理模擬器件多層深度級(jí)聯(lián)的固有計(jì)算誤差。」
AI 光芯片:干涉-衍射融合計(jì)算芯片
在這項(xiàng)工作中,團(tuán)隊(duì)設(shè)計(jì)了一種具有靈活分布式計(jì)算架構(gòu)的大規(guī)模衍射-干涉混合型光子 AI 芯片——「太極」。
據(jù)論文報(bào)道:「太極」光芯片具備 879 T MACS/mm2的面積效率與 160 TOPS/W 的能量效率,實(shí)現(xiàn)了高達(dá)兩個(gè)數(shù)量級(jí)的能效提升。首次賦能光計(jì)算實(shí)現(xiàn)自然場(chǎng)景千類對(duì)象識(shí)別、跨模態(tài)內(nèi)容生成等人工智能復(fù)雜任務(wù)。
國(guó)內(nèi)光芯片企業(yè)情況如何?
在面向「后摩爾時(shí)代」的潛在顛覆性技術(shù)里,光子芯片已進(jìn)入人們的視野。其所具有的高速度、低能耗、工藝技術(shù)相對(duì)成熟等優(yōu)勢(shì),能夠有效突破傳統(tǒng)集成電路物理極限上的瓶頸,滿足新一輪科技革命中人工智能、物聯(lián)網(wǎng)、云計(jì)算等產(chǎn)業(yè)對(duì)信息獲取、傳輸、計(jì)算、存儲(chǔ)、顯示的技術(shù)需求。
目前,全球光子芯片產(chǎn)業(yè)剛剛起步,作為獨(dú)立于電子集成技術(shù)的新集成技術(shù),其技術(shù)壁壘還沒(méi)有形成。我國(guó)光子產(chǎn)業(yè)發(fā)展水平與世界處于并跑階段,在光子基礎(chǔ)理論研究和技術(shù)發(fā)展方面具有一定的優(yōu)勢(shì)。
目前中國(guó)本土的高功率激光芯片、部分高速率激光芯片(10G、25G 等)等已處于國(guó)產(chǎn)化加速突破階段,而光探測(cè)芯片、25G 以上高速率激光芯片剛剛起步。
值得注意的是,光芯片方面華為也有所布局。
今年 3 月,華為公布了一項(xiàng)「光芯片及其制備方法、通信設(shè)備」發(fā)明專利。申請(qǐng)公布號(hào)為:CN117616316A,該專利申請(qǐng)日期為 2021 年 9 月 18 日。摘要顯示,本申請(qǐng)的實(shí)施例提供一種光芯片及其制備方法、通信設(shè)備,涉及光通信技術(shù)領(lǐng)域,解決現(xiàn)有的光芯片中光波導(dǎo)在制備過(guò)程中尖端易斷裂的問(wèn)題。
光芯片企業(yè)利潤(rùn)下降
國(guó)內(nèi)光芯片廠商有源杰科技、長(zhǎng)光華芯和炬光科技等。在 2023 年度業(yè)績(jī)快報(bào)中,這三家企業(yè)均提到宏觀環(huán)境、行業(yè)發(fā)展的影響,導(dǎo)致產(chǎn)品需求減少和價(jià)格降低。
源杰科技是國(guó)內(nèi)領(lǐng)先的光芯片 IDM 廠商,產(chǎn)品涵蓋從 2.5G 到 50G 磷化銦激光器芯片。從源杰科技 2023 年的業(yè)績(jī)來(lái)看,營(yíng)業(yè)收入共計(jì)約 1.44 億元,與去年同期相比下降 48.96%,全年歸屬凈利潤(rùn)盈利 0.195 億元,同比減少 80.58%。
長(zhǎng)光華芯發(fā)布的業(yè)績(jī)報(bào)告來(lái)看,也同樣處于虧損狀態(tài)。營(yíng)業(yè)收入約 2.92 億元,同比減少 24.2%;歸屬于上市公司股東的凈利潤(rùn)虧損 8610.17 萬(wàn)元。2023 年 1 至 6 月份,長(zhǎng)光華芯的營(yíng)業(yè)收入構(gòu)成為:高功率單管系列占比 90.16%,高功率巴條系列占比 8.24%,其他業(yè)務(wù)占比 0.9%,VCSEL 芯片系列占比 0.7%。
炬光科技業(yè)務(wù)覆蓋上游「產(chǎn)生光子」「調(diào)控光子」及中游汽車、泛半導(dǎo)體、醫(yī)療健康領(lǐng)域,與多家業(yè)內(nèi)知名公司達(dá)成合作。炬光科技發(fā)布 2023 年度業(yè)績(jī)快報(bào),營(yíng)業(yè)收入約 5.61 億元,同比增加 1.69%;歸屬于上市公司股東的凈利潤(rùn) 8968 萬(wàn)元,同比減少 29.44%
源杰科技表示「電信市場(chǎng)及數(shù)據(jù)中心銷售不及預(yù)期」;長(zhǎng)光華芯稱「受宏觀經(jīng)濟(jì)環(huán)境等因素的影響,市場(chǎng)信心不足,激光器市場(chǎng)需求持續(xù)疲軟,同時(shí)行業(yè)競(jìng)爭(zhēng)加劇」,炬光科技稱「公司部分上游元器件產(chǎn)品價(jià)格降低,綜合毛利率下降」。
評(píng)論