清華大學(xué)在支持片上學(xué)習(xí)的憶阻器存算一體芯片領(lǐng)域取得重大突破
當(dāng)前,生成式人工智能已引爆新一輪智能革命的發(fā)展浪潮,大算力支撐下的人工智能技術(shù)極大改變著人類的生產(chǎn)生活方式??呻S之而來的海量參數(shù)令算力需求持續(xù)攀升,如何解決龐大的算力缺口,實(shí)現(xiàn)能效比的大幅提升,正在變得日益迫切。高算力、高能效芯片作為算力的具體載體,已成為驅(qū)動(dòng)本輪智能革命發(fā)展的核心底座,更是推動(dòng)人類社會(huì)不斷發(fā)展的動(dòng)力源泉。
本文引用地址:http://www.ex-cimer.com/article/202309/450640.htm面向傳統(tǒng)存算分離架構(gòu)制約算力提升的重大挑戰(zhàn),集成電路學(xué)院吳華強(qiáng)教授、高濱副教授聚焦憶阻器存算一體技術(shù)研究,探索實(shí)現(xiàn)計(jì)算機(jī)系統(tǒng)新范式。憶阻器存算一體技術(shù)從底層器件、電路架構(gòu)和計(jì)算理論全面顛覆了馮·諾依曼傳統(tǒng)計(jì)算架構(gòu),可實(shí)現(xiàn)算力和能效的跨越式提升,同時(shí),該技術(shù)還可利用底層器件的學(xué)習(xí)特性,支持實(shí)時(shí)片上學(xué)習(xí),賦能基于本地學(xué)習(xí)的邊緣訓(xùn)練新場(chǎng)景。當(dāng)前國(guó)際上的相關(guān)研究主要集中在憶阻器陣列層面的學(xué)習(xí)功能演示,然而實(shí)現(xiàn)全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器芯片仍面臨較大挑戰(zhàn),至今還未實(shí)現(xiàn),主要在于傳統(tǒng)的反向傳播訓(xùn)練算法所要求的高精度權(quán)重更新方式與憶阻器實(shí)際特性的適配性較差。
為解決上述難題,課題組基于存算一體計(jì)算范式,創(chuàng)造性提出適配憶阻器存算一體實(shí)現(xiàn)高效片上學(xué)習(xí)的新型通用算法和架構(gòu)(STELLAR),有效實(shí)現(xiàn)大規(guī)模模擬型憶阻器陣列與 CMOS 的單片三維集成,通過算法、架構(gòu)、集成方式的全流程協(xié)同創(chuàng)新,研制出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器存算一體芯片。該芯片包含支持完整片上學(xué)習(xí)所必需的全部電路模塊,成功完成圖像分類、語音識(shí)別和控制任務(wù)等多種片上增量學(xué)習(xí)功能驗(yàn)證,展示出高適應(yīng)性、高能效、高通用性、高準(zhǔn)確率等特點(diǎn),有效強(qiáng)化了智能設(shè)備在實(shí)際應(yīng)用場(chǎng)景下的學(xué)習(xí)適應(yīng)能力。相同任務(wù)下,該芯片實(shí)現(xiàn)片上學(xué)習(xí)的能耗僅為先進(jìn)工藝下專用集成電路(ASIC)系統(tǒng)的 3%,展現(xiàn)出卓越的能效優(yōu)勢(shì),極具滿足人工智能時(shí)代高算力需求的應(yīng)用潛力,為突破馮·諾依曼傳統(tǒng)計(jì)算架構(gòu)下的能效瓶頸提供了一種創(chuàng)新發(fā)展路徑。
圖一:憶阻器存算一體芯片及測(cè)試系統(tǒng)
圖二:基于憶阻器存算一體, 實(shí)現(xiàn)高效片上學(xué)習(xí)的通用算法和架構(gòu)
該研究成果以「面向邊緣學(xué)習(xí)的全集成類腦憶阻器芯片」(Edge Learning Using a Fully Integrated Neuro-Inspired Memristor Chip)為題在線發(fā)表在《科學(xué)》(Science)上。
論文通訊作者為清華大學(xué)集成電路學(xué)院高濱副教授和吳華強(qiáng)教授,清華大學(xué)集成電路學(xué)院博士生張文彬、博士后姚鵬為論文的共同第一作者,其他參加研究的作者包括清華大學(xué)集成電路學(xué)院錢鶴教授、唐建石副教授、伍冬副研究員、張清天助理研究員,清華大學(xué)電子系汪玉教授等。
該研究得到科技部科技創(chuàng)新 2030「腦科學(xué)與類腦研究」重大項(xiàng)目、國(guó)家自然科學(xué)基金委后摩爾重大研究計(jì)劃、北京集成電路高精尖創(chuàng)新中心等支持。
論文鏈接
https://www.science.org/doi/full/10.1126/science.ade3483
清華大學(xué)集成電路學(xué)院錢鶴、吳華強(qiáng)教授團(tuán)隊(duì)長(zhǎng)期致力于基于憶阻器的存算一體技術(shù)研究,從器件制備、工藝集成、電路設(shè)計(jì)及架構(gòu)與算法優(yōu)化等多層次實(shí)現(xiàn)創(chuàng)新突破,先后在《自然》(Nature)、《科學(xué)》(Science)、《自然·納米技術(shù)》(Nature Nanotechnology)、《自然·電子》(Nature Electronics)、《自然·機(jī)器智能》(Nature Machine Intelligence)等頂級(jí)期刊以及國(guó)際電子器件會(huì)議(IEDM)、國(guó)際固態(tài)半導(dǎo)體電路大會(huì)(ISSCC)等領(lǐng)域內(nèi)頂級(jí)國(guó)際學(xué)術(shù)會(huì)議上發(fā)表多篇論文。高濱課題組作為團(tuán)隊(duì)重要研究力量,長(zhǎng)期從事憶阻器性能優(yōu)化和存算一體芯片設(shè)計(jì)方法的相關(guān)研究,成功開發(fā)了從器件到系統(tǒng)的聯(lián)合仿真工具和協(xié)同優(yōu)化方法,設(shè)計(jì)出計(jì)算精度大于 95%、能效大于 78TOPs/W 的高性能憶阻器存算一體芯片。
什么是存算一體?
存算一體(Computing in Memory)是在存儲(chǔ)器中嵌入計(jì)算能力,以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算。
存算一體技術(shù)概念的形成,最早可以追溯到上個(gè)世紀(jì) 70 年代。隨著近幾年云計(jì)算和人工智能(AI)應(yīng)用的發(fā)展,面對(duì)計(jì)算中心的數(shù)據(jù)洪流,數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問題成為了計(jì)算的關(guān)鍵瓶頸。
在過去二十年,處理器性能以每年大約 55% 的速度提升,內(nèi)存性能的提升速度每年只有 10% 左右。結(jié)果長(zhǎng)期下來,不均衡的發(fā)展速度造成了當(dāng)前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度。
在傳統(tǒng)計(jì)算機(jī)的設(shè)定里,存儲(chǔ)模塊是為計(jì)算服務(wù)的,因此設(shè)計(jì)上會(huì)考慮存儲(chǔ)與計(jì)算的分離與優(yōu)先級(jí)。但是如今,存儲(chǔ)和計(jì)算不得不整體考慮,以最佳的配合方式為數(shù)據(jù)采集、傳輸和處理服務(wù)。這里面,存儲(chǔ)與計(jì)算的再分配過程就會(huì)面臨各種問題,而它們主要體現(xiàn)為存儲(chǔ)墻、帶寬墻和功耗墻問題。
雖然多核(例如 CPU)/眾核(例如 GPU)并行加速技術(shù)也能提升算力,但在后摩爾時(shí)代,存儲(chǔ)帶寬制約了計(jì)算系統(tǒng)的有效帶寬,芯片算力增長(zhǎng)步履維艱。
從處理單元外的存儲(chǔ)器提取數(shù)據(jù),搬運(yùn)時(shí)間往往是運(yùn)算時(shí)間的成百上千倍,整個(gè)過程的無用能耗大概在 60%-90% 之間,能效非常低,「存儲(chǔ)墻」成為了數(shù)據(jù)計(jì)算應(yīng)用的一大障礙。特別是,深度學(xué)習(xí)加速的最大挑戰(zhàn)就是數(shù)據(jù)在計(jì)算單元和存儲(chǔ)單元之間頻繁的移動(dòng)。
存內(nèi)計(jì)算和存內(nèi)邏輯,即存算一體技術(shù)直接利用存儲(chǔ)器進(jìn)行數(shù)據(jù)處理或計(jì)算,從而把數(shù)據(jù)存儲(chǔ)與計(jì)算融合在同一個(gè)芯片的同一片區(qū)之中,可以徹底消除馮諾依曼計(jì)算架構(gòu)瓶頸,特別適用于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)這種大數(shù)據(jù)量大規(guī)模并行的應(yīng)用場(chǎng)景。
存算一體發(fā)展史
1969 年,斯坦福研究所的 Kautz 等人提出了存算一體計(jì)算機(jī)的概念。但受限于當(dāng)時(shí)的芯片制造技術(shù)和算力需求的匱乏,那時(shí)存算一體僅僅停留在理論研究階段,并未得到實(shí)際應(yīng)用。
為了打破馮諾依曼計(jì)算架構(gòu)瓶頸,降低「存儲(chǔ)-內(nèi)存-處理單元」過程數(shù)據(jù)搬移帶來的開銷,學(xué)術(shù)界和工業(yè)界嘗試了多種方法。其中比較直接的方法是近存計(jì)算,減少內(nèi)存和處理單元之間的路徑,如通過 3D 封裝技術(shù)實(shí)現(xiàn) 3D 堆疊,將多層 DRAM 堆疊而成的新型內(nèi)存,能提供更大的內(nèi)存容量和內(nèi)存帶寬。此外,Intel 和 Micron 合作開發(fā)的基于 PRAM 存儲(chǔ)介質(zhì)的 3D Xpoint 屬于堆疊型內(nèi)存,旨在縮短片上存儲(chǔ)與內(nèi)存之間的路徑。但上述方案并沒有改變數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理分離的問題,并不能從根本上解決馮諾依曼計(jì)算架構(gòu)瓶頸。
近年來,隨著半導(dǎo)體制造技術(shù)的突飛猛進(jìn),以及 AI、元宇宙等算力密集的應(yīng)用場(chǎng)景的崛起,為存算一體技術(shù)提供新的制造平臺(tái)和產(chǎn)業(yè)驅(qū)動(dòng)力。
2010 年,惠普實(shí)驗(yàn)室的 Williams 教授團(tuán)隊(duì)用憶阻器實(shí)現(xiàn)簡(jiǎn)單布爾邏輯功能。2016 年,美國(guó)加州大學(xué)圣塔芭芭拉分校(UCSB)的謝源教授團(tuán)隊(duì)提出使用 RRAM 構(gòu)建存算一體架構(gòu)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò) (PRIME)。相較于傳統(tǒng)馮諾伊曼架構(gòu)的傳統(tǒng)方案,PRIME 可以實(shí)現(xiàn)功耗降低約 20 倍、速度提升約 50 倍,引起產(chǎn)業(yè)界廣泛關(guān)注。
隨著人工智能等大數(shù)據(jù)應(yīng)用的興起,存算一體技術(shù)得到國(guó)內(nèi)外學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛研究與應(yīng)用。在 2017 年微處理器頂級(jí)年會(huì) (Micro 2017) 上,包括英偉達(dá)、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型。
評(píng)論