<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 網(wǎng)絡與存儲 > 市場分析 > ISSCC 2025上的存算一體芯片

          ISSCC 2025上的存算一體芯片

          作者: 時間:2025-02-26 來源:半導體產(chǎn)業(yè)縱橫 收藏

          當前, 邊緣智能計算設備部署神經(jīng)網(wǎng)絡時, 往往需要通過訓練微調(diào)以提升網(wǎng)絡精度。但基于遠程云端訓練的方法存在高延遲、高功耗以及存在隱私泄露風險等缺點, 因此, 實現(xiàn)支持本地訓練的存算一體技術(shù)至關(guān)重要。

          本文引用地址:http://www.ex-cimer.com/article/202502/467330.htm

          存算一體(Computing-in-Memory, CIM)技術(shù)是一種革命性的計算架構(gòu),通過將計算和存儲功能集成在同一芯片中,解決了傳統(tǒng)馮?諾依曼架構(gòu)中的 「內(nèi)存墻」 問題。隨著人工智能、邊緣計算和數(shù)據(jù)中心等領(lǐng)域的快速發(fā)展,存算一體技術(shù)因其高效能、低功耗的特點,成為未來計算架構(gòu)的重要方向

          傳統(tǒng)的存算一體宏僅支持網(wǎng)絡推理, 無法進行網(wǎng)絡訓練所需要的轉(zhuǎn)置運算?,F(xiàn)有方案無法對訓練中的前向與反向傳播過程中的乘累加電路進行有效的復用, 造成了功耗和面積上的浪費, 且僅支持定點數(shù)制的模擬存算方案, 在精度上也存在較大的缺陷。如何有效實現(xiàn)支持轉(zhuǎn)置操作的高能效、高精度的存算一體宏, 是當前存算一體領(lǐng)域亟須解決的問題。

          針對以上問題, 集成電路制造技術(shù)全國重點實驗室張鋒研究員團隊設計出可轉(zhuǎn)置的近似精確雙模浮點存算一體宏芯片。

          通過提出的循環(huán)權(quán)重映射 SRAM 方案, 芯片可在前向與反向傳播時復用乘加單元, 在實現(xiàn)了轉(zhuǎn)置功能的同時, 相對之前的轉(zhuǎn)置存算一體宏單元大大提升了能效與算力密度。

          通過提出的有符號定點尾數(shù)編碼方式與向量粒度預對齊方案, 芯片實現(xiàn)了多種浮點、定點數(shù)制的兼容支持, 相較于傳統(tǒng)的粗粒度浮點預對齊方案有著更小的精度損失。

          通過提出的近似精確雙模的乘加電路設計, 芯片可在精度要求低的推理環(huán)節(jié)時開啟近似模式, 從而獲得 12% 的速度提升與 45% 的能耗降低, 可在精度要求高的訓練環(huán)節(jié)時開啟精確模式確保沒有精度損失。

          該存算一體宏芯片在 28nm CMOS 工藝下流片, 可支持 BF16、FP8 浮點精度運算以及 INT8、INT4 定點精度運算。BF16 浮點矩陣-矩陣-向量計算均值能效達到 48TFLOP/W, 峰值能效達到 100TFLOPS/W;FP8 浮點矩陣-矩陣-向量計算均值能效達到 192.3TFLOP/W, 峰值能效達到 400TFLOPS/W。這一研究結(jié)果為應用于邊緣端訓練的存算一體架構(gòu)芯片提供了新思路。

          上述工作以「A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference」為題入選 ISSCC 2025。微電子所博士生袁易揚為第一作者, 張鋒研究員與北京理工大學李瀟然助理教授為通訊作者。該研究成果得到了科技部重點研發(fā)計劃、國家自然科學基金、中國科學院戰(zhàn)略先導專項等項目的支持。


          圖 1. 28nm 基于外積的數(shù)?;旌细↑c存算一體宏芯片:(a) 芯片顯微鏡照片,(b) 芯片特性總結(jié)表。

          存算一體芯片的適用場景

          中早期的存算一體芯片算力較小,從小算力 1TOPS 開始往上走,解決的是音頻類、健康類及低功耗視覺終端側(cè)應用場景,AI 落地的芯片性能及功耗問題。比如:AIoT 的應用。眾所周知,碎片化的 AIoT 市場對先進工藝芯片的需求并不強烈,反而更青睞低成本、低功耗、易開發(fā)的芯片。存算一體正是符合這一系列要求的芯片。

          首先,存算一體技術(shù)能夠減少數(shù)據(jù)在存儲單元和計算單元之間的移動,從而顯著降低能耗。例如,傳統(tǒng)架構(gòu)中,大量的數(shù)據(jù)傳輸會消耗大量能量,而存算一體架構(gòu)可以避免這種不必要的能耗,使得像電池供電的物聯(lián)網(wǎng)設備能夠更長時間地運行。

          其次,通過減少數(shù)據(jù)傳輸和提高集成度,存算一體技術(shù)可以降低芯片的制造成本。對于大規(guī)模部署的 AIoT 設備來說,成本的降低有助于更廣泛的應用推廣。

          最后,存算一體芯片還可以大幅提高運算速度并節(jié)省空間,而這兩項也是給 AIoT 應用帶來助力的兩大因素。

          目前云計算算力市場,GPU 的單一架構(gòu)已經(jīng)不能適應不同 AI 計算場景的算法離散化特點,如在圖像、推薦、NLP 領(lǐng)域有各自的主流算法架構(gòu)。隨著存算一體芯片算力不斷提升,使用范圍逐漸擴展到大算力應用領(lǐng)域。針對大算力場景>100TOPS,在無人車、泛機器人、智能駕駛,云計算領(lǐng)域提供高性能大算力和高性價比的產(chǎn)品。此外,存算一體芯片還有一些其他延伸應用,比如感存算一體、類腦計算等。



          關(guān)鍵詞: CIM芯片

          評論


          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();