國內(nèi)AI芯片百家爭鳴,何以抗衡全球技術(shù)寡頭
清華大學微納電子系魏少軍等 2017 年的 VLSI 國際研討會上提出了基于可重構(gòu)多模態(tài)混合的神經(jīng)計算芯片 Thinker。Thinker 芯片基于該團隊長期積累的可重構(gòu)計算芯片技術(shù),采用可重構(gòu)架構(gòu)和電路技術(shù),突破了神經(jīng)網(wǎng)絡(luò)計算和訪存的瓶頸,實現(xiàn)了高能效多模態(tài)混合神經(jīng)網(wǎng)絡(luò)計算。Thinker 芯片具有高能效的突出優(yōu)點,其能量效率相比目前在深度學習中廣泛使用的 GPU 提升了三個數(shù)量級。Thinker 芯片支持電路級編程和重構(gòu),是一個通用的神經(jīng)網(wǎng)絡(luò)計算平臺,可廣泛應(yīng)用于機器人、無人機、智能汽車、智慧家居、安防監(jiān)控和消費電子等領(lǐng)域。該芯片采用了 TSMC 65nm 工藝,片上存儲為 348KB,峰值性能為 5.09TOPS/W。
本文引用地址:http://www.ex-cimer.com/article/201804/377915.htm新架構(gòu)新技術(shù)——憶阻器
2017 年清華大學微電子所錢鶴、吳華強課題組在《自然通訊》(Nature Communications)在線發(fā)表了題為 “運用電子突觸進行人臉分類”(“Face Classification using Electronic Synapses”)的研究成果,將氧化物憶阻器的集成規(guī)模提高了一個數(shù)量級,首次實現(xiàn)了基于 1024 個氧化物憶阻器陣列的類腦計算。該成果在最基本的單個憶阻器上實現(xiàn)了存儲和計算的融合,采用完全不同于傳統(tǒng) “馮 · 諾依曼架構(gòu)” 的體系,可以使芯片功耗降低到原千分之一以下。憶阻器被認為是最具潛力的電子突觸器件,通過在器件兩端施加電壓,可以靈活地改變其阻值狀態(tài),從而實現(xiàn)突觸的可塑性。此外,憶阻器還具有尺寸小、操作功耗低、可大規(guī)模集成等優(yōu)勢。因此,基于憶阻器所搭建的類腦計算硬件系統(tǒng)具有功耗低和速度快的優(yōu)勢,成為國際研究熱點。
在神經(jīng)形態(tài)處理器方面,最為著名的就是 IBM 在 2014 年推出的 TrueNorth 芯片,該芯片包括 4096 個核心和 540 萬個晶體管,功耗 70mW,模擬了一百萬個神經(jīng)元和 2.56 億個突觸。而在 2017 年,英特爾也推出一款能模擬大腦工作的自主學習芯片 Loihi,Loihi 由 128 個計算核心構(gòu)成,每個核心集成了 1024 個人工神經(jīng)元,整個芯片擁有超過個 13 萬個神經(jīng)元與 1.3 億個突觸連接,與人腦超過 800 億個神經(jīng)元相比,簡直是小巫見大巫,Loihi 的運算規(guī)模僅比蝦腦復雜一點點而已。英特爾認為該芯片適用于無人機與汽車自動駕駛,紅綠燈自適應(yīng)路面交通狀況,用攝像頭尋找失蹤人口等任務(wù)。
而在神經(jīng)形態(tài)芯片研究領(lǐng)域,清華大學類腦計算研究中心施路平等在 2015 年就推出了首款類腦芯片—“天機芯”,該芯片世界首次將人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANNs)和脈沖神經(jīng)網(wǎng)絡(luò)(Spiking Neural Networks,SNNs)進行異構(gòu)融合,同時兼顧技術(shù)成熟并被廣泛應(yīng)用的深度學習模型與未來具有巨大前景的計算神經(jīng)科學模型,可用于諸如圖像處理、語音識別、目標跟蹤等多種應(yīng)用開發(fā)。在類腦 “自行” 車演示平臺上,集成 32 個天機一號芯片,實現(xiàn)了面向視覺目標探測、感知、目標追蹤、自適應(yīng)姿態(tài)控制等任務(wù)的跨模態(tài)類腦信息處理實驗。據(jù)悉,基于 TSMC 28nm 工藝的第二代天機芯片也即將推出,性能將會得到極大提升。
從 ISSCC2018 看人工智能芯片發(fā)展趨勢
在剛剛結(jié)束的計算機體系結(jié)構(gòu)頂級會議 ISSCC2018,“Digital Systems: Digital Architectures and Systems” 分論壇主席 Byeong-Gyu Nam 對人工智能芯片,特別是深度學習芯片的發(fā)展趨勢做了概括。深度學習依然今年大會最為熱門的話題。相比較于去年大多數(shù)論文都在討論卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)問題,今年則更加關(guān)注兩個問題:其一,如果更高效地實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò),特別是針對手持終端等設(shè)備;其二,則是關(guān)于全連接的非卷積神經(jīng)網(wǎng)絡(luò),如 RNN 和 LSTM 等。
同時,為了獲得更高的能效比,越來越多的研究者把精力放在了低精度神經(jīng)網(wǎng)絡(luò)的設(shè)計和實現(xiàn),如 1bit 的神經(jīng)網(wǎng)絡(luò)。這些新型技術(shù),使得深度學習加速器的能效比從去年的幾十 TOPS/W 提升到了今年的上百 TOPS/W。有些研究者也對數(shù)字 + 模擬的混合信號處理實現(xiàn)方案進行了研究。對數(shù)據(jù)存取具有較高要求的全連接網(wǎng)絡(luò),有些研究者則借助 3-D 封裝技術(shù)來獲得更好的性能。
總結(jié):對國產(chǎn)人工智能芯片的一點愚見
正如前文所述,在人工智能芯片領(lǐng)域,國外芯片巨頭占據(jù)了絕大部分市場份額,不論是在人才聚集還是公司合并等方面,都具有絕對的領(lǐng)先優(yōu)勢。而國內(nèi)人工智能初創(chuàng)公司則又呈現(xiàn)百家爭鳴、各自為政的紛亂局面;特別是每個初創(chuàng)企業(yè)的人工智能芯片都具有自己獨特的體系結(jié)構(gòu)和軟件開發(fā)套件,既無法融入英偉達和谷歌建立的生態(tài)圈,又不具備與之抗衡的實力。
國產(chǎn)人工智能芯片的發(fā)展,一如早年間國產(chǎn)通用處理器和操作系統(tǒng)的發(fā)展,過份地追求完全獨立、自主可控的怪圈,勢必會如眾多國產(chǎn)芯片一樣逐漸退出歷史舞臺。借助于 X86 的完整生態(tài),短短一年之內(nèi),兆芯推出的國產(chǎn)自主可控 x86 處理器,以及聯(lián)想基于兆芯 CPU 設(shè)計生產(chǎn)的國產(chǎn)計算機、服務(wù)器就獲得全國各地黨政辦公人員的高度認可,并在黨政軍辦公、信息化等國家重點系統(tǒng)和工程中已獲批量應(yīng)用。
當然,投身于 X86 的生態(tài)圈對于通用桌面處理器和高端服務(wù)器芯片來說無可厚非,畢竟創(chuàng)造一個如 Wintel 一樣的生態(tài)鏈已絕非易事,我們也不可能遇見第二個喬布斯和蘋果公司。而在全新的人工智能芯片領(lǐng)域,對眾多國產(chǎn)芯片廠商來說,還有很大的發(fā)展空間,針對神經(jīng)網(wǎng)絡(luò)加速器最重要的就是找到一個具有廣闊前景的應(yīng)用領(lǐng)域,如華為海思麒麟處理器之于中科寒武紀的 NPU;否則還是需要融入一個合適的生態(tài)圈。另外,目前大多數(shù)國產(chǎn)人工智能處理器都針對于神經(jīng)網(wǎng)絡(luò)計算進行加速,而能夠提供單芯片解決方案的很少;微控制器領(lǐng)域的發(fā)展,ARM 的 Cortex-A 系列和 Cortex-M 系列占據(jù)主角,但是新興的開源指令集架構(gòu) RISC-V 也不容小覷,完全值得眾多國產(chǎn)芯片廠商關(guān)注。
評論