清華大學發(fā)布創(chuàng)新AI光芯片,實現(xiàn)160 TOPS/W的通用智能計算
人工智能浪潮下,光芯片發(fā)展在提速。
本文引用地址:http://www.ex-cimer.com/article/202404/457619.htm作為人工智能的三駕馬車之一,算力是訓練AI模型、推理任務的關鍵。
清華大學科研團隊的新成果發(fā)布在了4月12日凌晨的最新一期《科學》上,首創(chuàng)分布式廣度智能光計算架構,研制出全球首款大規(guī)模干涉衍射異構集成芯片“太極(Taichi)”,實現(xiàn)了160 TOPS/W的通用智能計算。
據(jù)介紹,“太極”光芯片架構開發(fā)的過程中,靈感來自典籍《周易》,團隊成員以“易有太極,是生兩儀”為啟發(fā),建立了全新的計算模型,實現(xiàn)了光計算強悍性能的釋放。
光計算,顧名思義是將計算載體從電變?yōu)楣猓霉庠谛酒械膫鞑ミM行計算,以其超高的并行度和速度,被認為是未來顛覆性計算架構的最有力競爭方案之一。
光芯片具備高速高并行計算優(yōu)勢,被寄予希望用來支撐大模型等先進人工智能應用。
據(jù)論文第一作者、電子系博土生徐智吳介紹,在“太極”架構中,自頂向下的編碼拆分-解碼重構機制,將復雜智能任務化繁為簡,拆分為多通道高并行的子任務,構建的分布式'大感受野’淺層光網(wǎng)絡對子任務分而治之,突破物理模擬器件多層深度級聯(lián)的固有計算誤差。
論文報道:“太極”光芯片具備879T MACS/mm的面積效率與160 TOPS/N的能量效率。首次賦能光計算實現(xiàn)自然場景千類對象識別、跨模態(tài)內(nèi)容生成等人工智能復雜任務。
“太極”光芯片有望為大模型訓練推理、通用人工智能、自主智能無人系統(tǒng)提供算力支撐。
人工智能需要光子電路
人工智能通常依賴于人工神經(jīng)網(wǎng)絡,用于分析醫(yī)學掃描和生成圖像等應用。在這些系統(tǒng)中,稱為神經(jīng)元的電路組件(類似于人腦中的神經(jīng)元)被輸入數(shù)據(jù)并合作解決問題,例如識別人臉。如果神經(jīng)網(wǎng)絡擁有多層這些神經(jīng)元。
隨著神經(jīng)網(wǎng)絡的規(guī)模和功率的增長,它們在傳統(tǒng)電子設備上運行時變得越來越耗能。例如,為了訓練其最先進的神經(jīng)網(wǎng)絡 GPT-3,2022 年《自然》雜志的一項研究表明,OpenAI 花費了 460 萬美元在兩周內(nèi)運行 9200個GPU。
電子計算的缺點導致一些研究人員將光學計算作為下一代人工智能的有希望的基礎進行研究。與電子對應物相比,這種光子方法使用光來更快地執(zhí)行計算,并且功率更低。
清華大學領銜開發(fā)出的光子微芯片Taichi,可以在高級人工智能任務中與電子設備一樣執(zhí)行,同時被證明更加節(jié)能。
“光學神經(jīng)網(wǎng)絡不再是玩具模型,”清華大學電子工程副教授Lu Fang說:“它們現(xiàn)在可以應用于現(xiàn)實世界的任務。”
光學神經(jīng)網(wǎng)絡是如何工作的?
開發(fā)光學神經(jīng)網(wǎng)絡主要有兩種策略:1、在微芯片內(nèi)以特定模式散射光;2、讓光波在器件內(nèi)部以精確的方式相互干擾。當以光的形式輸入這些光學神經(jīng)網(wǎng)絡時,輸出光會對這些器件中執(zhí)行的復雜操作的數(shù)據(jù)進行編碼。
Fang 解釋說,這兩種光子計算方法都有明顯的優(yōu)點和缺點。例如,依賴于散射或衍射的光學神經(jīng)網(wǎng)絡可以將許多神經(jīng)元緊密地聚集在一起,并且?guī)缀醪幌娜魏文芰?。基于衍射的神?jīng)網(wǎng)絡依賴于光束在穿過代表網(wǎng)絡操作的光學層時的散射。然而,基于衍射的神經(jīng)網(wǎng)絡的一個缺點是它們無法重新配置。每個操作字符串基本上只能用于一個特定任務。
相比之下,依賴于干擾的光學神經(jīng)網(wǎng)絡可以很容易地重新配置?;诟蓴_的神經(jīng)網(wǎng)絡通過信道網(wǎng)格發(fā)送多個波束,它們在這些信道相交處的干擾方式有助于執(zhí)行設備的操作。然而,它們的缺點是干涉儀也很笨重,這限制了這種神經(jīng)網(wǎng)絡的擴展能力。它們也會消耗大量能量。
此外,當前的光子芯片會遇到不可避免的錯誤。試圖通過增加這些器件中的神經(jīng)元層數(shù)量來擴展光學神經(jīng)網(wǎng)絡通常只會成倍地增加噪聲。這意味著,到目前為止,光學神經(jīng)網(wǎng)絡僅限于基本的人工智能任務,例如簡單的模式識別,換句話說,光學神經(jīng)網(wǎng)絡通常不適合先進應用。
研究人員表示,相比之下,Taichi是一種結合了衍射和干涉方法的混合設計。它包含衍射單元簇,可以在緊湊的空間內(nèi)壓縮數(shù)據(jù)以進行大規(guī)模輸入和輸出。該芯片還包含干涉儀陣列,用于可重構計算。Fang表示,為 Taichi 開發(fā)的編碼協(xié)議將具有挑戰(zhàn)性的任務和大型網(wǎng)絡模型劃分為可以分布在不同模塊中的子模型。
Taichi 如何融合這兩種神經(jīng)網(wǎng)絡?
以前的研究通常試圖通過模仿電子對應物經(jīng)常做的事情來擴展光學神經(jīng)網(wǎng)絡的容量——增加神經(jīng)元層的數(shù)量。Taichi 的架構通過將計算分布在多個并行運行的小芯片上來擴展,這意味著 Taichi 可以避免當光學神經(jīng)網(wǎng)絡將許多神經(jīng)元層堆疊在一起時發(fā)生的指數(shù)級累積錯誤問題。
“這種'深度淺,寬度寬'的架構保證了網(wǎng)絡規(guī)模,”Fang說。
評論