<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 業(yè)界動(dòng)態(tài) > 人工智能芯片：發(fā)展史、CPU、FPGA和專(zhuān)用集成電路

人工智能芯片：發(fā)展史、CPU、FPGA和專(zhuān)用集成電路

作者：時(shí)間：2017-09-06 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

收藏

編者按：人工智能算法的實(shí)現(xiàn)需要強(qiáng)大的計(jì)算能力支撐，特別是深度學(xué)習(xí)算法的大規(guī)模使用，對(duì)計(jì)算能力提出了更高的要求。而從人工智能芯片所處的發(fā)展階段來(lái)看，從結(jié)構(gòu)層面去模仿大腦運(yùn)算雖然是人工智能追求的終極目標(biāo)，但距離現(xiàn)實(shí)應(yīng)用仍然較為遙遠(yuǎn)，功能層面的模仿才是當(dāng)前主流。

　　人工智能芯片(一)：發(fā)展史

本文引用地址：http://www.ex-cimer.com/article/201709/363960.htm

　　人工智能算法的實(shí)現(xiàn)需要強(qiáng)大的計(jì)算能力支撐，特別是深度學(xué)習(xí)算法的大規(guī)模使用，對(duì)計(jì)算能力提出了更高的要求。深度學(xué)習(xí)模型參數(shù)多、計(jì)算量大、數(shù)據(jù)的規(guī)模更大，在早期使用深度學(xué)習(xí)算法進(jìn)行語(yǔ)音識(shí)別的模型中，擁有429個(gè)神經(jīng)元的輸入層，整個(gè)網(wǎng)絡(luò)擁有156M個(gè)參數(shù)，訓(xùn)練時(shí)間超過(guò)75天;人工智能領(lǐng)軍人物Andrew Ng和Jeff Dean打造的Google Brain項(xiàng)目，使用包含16000個(gè)CPU核的并行計(jì)算平臺(tái)，訓(xùn)練超過(guò)10億個(gè)神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò)。下一步，如果模擬人類(lèi)大腦的神經(jīng)系統(tǒng)，需要模擬1000億個(gè)神經(jīng)元，計(jì)算能力將有數(shù)個(gè)量級(jí)的提升。

　　除此之外，隨著以智能手機(jī)為代表的移動(dòng)終端快速發(fā)展，人們也希望將人工智能應(yīng)用于移動(dòng)終端，而這對(duì)硬件的計(jì)算能力和能耗提出了更高的要求。傳統(tǒng)實(shí)現(xiàn)移動(dòng)終端人工智能的方法是通過(guò)網(wǎng)絡(luò)把終端數(shù)據(jù)全部傳送到云端，之后在云端計(jì)算后再把結(jié)果發(fā)回移動(dòng)端，例如蘋(píng)果的Siri服務(wù)。然而，這樣的方式會(huì)遇到一些問(wèn)題：第一，使用網(wǎng)絡(luò)傳輸數(shù)據(jù)會(huì)產(chǎn)生延遲，很可能數(shù)據(jù)計(jì)算的結(jié)果會(huì)需要等待數(shù)秒甚至數(shù)十秒才能傳回終端。這樣一來(lái)，那些需要立刻得到計(jì)算結(jié)果的應(yīng)用就不能用這種方式。例如無(wú)人機(jī)上使用的深度學(xué)習(xí)躲避障礙物算法，ADAS系統(tǒng)中使用的圖像識(shí)別算法等，如果計(jì)算過(guò)程不是本地進(jìn)行而是依賴(lài)云端，那么云端和終端的通訊延遲、可靠性等問(wèn)題有可能對(duì)汽車(chē)和無(wú)人機(jī)造成非常嚴(yán)重的后果。第二，一旦使用網(wǎng)絡(luò)傳送數(shù)據(jù)，那么數(shù)據(jù)就有被劫持的風(fēng)險(xiǎn)。因此，那些要求低計(jì)算延遲以及對(duì)于數(shù)據(jù)安全性非常敏感的應(yīng)用就需要把人工智能算法全部在終端實(shí)現(xiàn)，或者至少在終端完成一些預(yù)處理運(yùn)算然后再把少量運(yùn)算結(jié)果(而不是大量的原始數(shù)據(jù))傳送到云端完成最終計(jì)算，這就需要移動(dòng)終端硬件能夠快速完成這些運(yùn)算。因此，移動(dòng)端硬件完成這些運(yùn)算必須同時(shí)滿(mǎn)足高速度和低功耗的要求。

　　針對(duì)這些需求，人工智能核心計(jì)算芯片也經(jīng)歷了四次大的變化。2007年以前，人工智能研究和應(yīng)用經(jīng)歷了數(shù)次起伏，一直沒(méi)有發(fā)展成為成熟的產(chǎn)業(yè);同時(shí)受限于當(dāng)時(shí)算法、數(shù)據(jù)等因素，這一階段人工智能對(duì)于芯片并沒(méi)有特別強(qiáng)烈的需求，通用的CPU芯片即可提供足夠的計(jì)算能力。之后，由于高清視頻、游戲等行業(yè)的發(fā)展，GPU產(chǎn)品取得快速的突破;同時(shí)人們發(fā)現(xiàn)GPU的并行計(jì)算特性恰好適應(yīng)人工智能算法大數(shù)據(jù)并行計(jì)算的要求，如GPU比之前傳統(tǒng)的CPU在深度學(xué)習(xí)算法的運(yùn)算上可以提高9倍到72倍的效率，因此開(kāi)始嘗試使用GPU進(jìn)行人工智能的計(jì)算。進(jìn)入2010年后，云計(jì)算廣泛推廣，人工智能的研究人員可以通過(guò)云計(jì)算借助大量CPU和GPU進(jìn)行混合運(yùn)算，事實(shí)上今天人工智能主要的計(jì)算平臺(tái)還是云計(jì)算。但人工智能業(yè)界對(duì)于計(jì)算能力的要求不斷快速地提升，因此進(jìn)入2015年后，業(yè)界開(kāi)始研發(fā)針對(duì)人工智能的專(zhuān)用芯片，通過(guò)更好的硬件和芯片架構(gòu)，在計(jì)算效率上進(jìn)一步帶來(lái)10倍的提升。

　　人工智能核心計(jì)算芯片發(fā)展趨勢(shì)

　　目前，根據(jù)計(jì)算模式，人工智能核心計(jì)算芯片的發(fā)展分為兩個(gè)方向：一個(gè)是利用人工神經(jīng)網(wǎng)絡(luò)從功能層面模仿大腦的能力，其主要產(chǎn)品就是通常的CPU、GPU、FPGA及專(zhuān)用定制芯片ASIC。另一個(gè)神經(jīng)擬態(tài)計(jì)算則是從結(jié)構(gòu)層面去逼近大腦，其結(jié)構(gòu)還可進(jìn)一步分為兩個(gè)層次，一是神經(jīng)網(wǎng)絡(luò)層面，與之相應(yīng)的是神經(jīng)擬態(tài)架構(gòu)和處理器，如IBM的TrueNorth芯片，這種芯片把數(shù)字處理器當(dāng)作神經(jīng)元，把內(nèi)存作為突觸。與傳統(tǒng)馮諾依曼結(jié)構(gòu)不同，它的內(nèi)存、CPU和通信部件完全集成在一起，因此信息的處理完全在本地進(jìn)行，克服了傳統(tǒng)計(jì)算機(jī)內(nèi)存與CPU之間的瓶頸。同時(shí)神經(jīng)元之間可以方便快捷地相互溝通，只要接收到其他神經(jīng)元發(fā)過(guò)來(lái)的脈沖(動(dòng)作電位)，這些神經(jīng)元就會(huì)同時(shí)做動(dòng)作。二是神經(jīng)元層面，與之相應(yīng)的是元器件層面的創(chuàng)新。如IBM蘇黎世研究中心宣布制造出世界上首個(gè)人造納米尺度隨機(jī)相變神經(jīng)元，可實(shí)現(xiàn)高速無(wú)監(jiān)督學(xué)習(xí)。

　　人工智能類(lèi)腦芯片主要類(lèi)型

　　從人工智能芯片所處的發(fā)展階段來(lái)看，從結(jié)構(gòu)層面去模仿大腦運(yùn)算雖然是人工智能追求的終極目標(biāo)，但距離現(xiàn)實(shí)應(yīng)用仍然較為遙遠(yuǎn)，功能層面的模仿才是當(dāng)前主流。因此CPU、GPU和FPGA等通用芯片是目前人工智能領(lǐng)域的主要芯片，而針對(duì)神經(jīng)網(wǎng)絡(luò)算法的專(zhuān)用芯片ASIC也正在被Intel、Google、英偉達(dá)和眾多初創(chuàng)公司陸續(xù)推出，并有望將在今后數(shù)年內(nèi)取代當(dāng)前的通用芯片成為人工智能芯片的主力。

　　人工智能芯片(二)：GPU

　　“人工智能算法的實(shí)現(xiàn)需要強(qiáng)大的計(jì)算能力支撐，特別是深度學(xué)習(xí)算法的大規(guī)模使用，對(duì)計(jì)算能力提出了更高的要求?！?/p>

　　傳統(tǒng)的通用CPU之所以不適合人工智能算法的執(zhí)行，主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式，沒(méi)能發(fā)揮出芯片的全部潛力。與之不同的是，GPU具有高并行結(jié)構(gòu)，在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比CPU更高的效率。對(duì)比GPU和CPU在結(jié)構(gòu)上的差異，CPU大部分面積為控制器和寄存器，而GPU擁有更多的ALU(ARITHMETIC LOGIC UNIT，邏輯運(yùn)算單元)用于數(shù)據(jù)處理，這樣的結(jié)構(gòu)適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理。CPU執(zhí)行計(jì)算任務(wù)時(shí)，一個(gè)時(shí)刻只處理一個(gè)數(shù)據(jù)，不存在真正意義上的并行，而GPU具有多個(gè)處理器核，在一個(gè)時(shí)刻可以并行處理多個(gè)數(shù)據(jù)。程序在GPU系統(tǒng)上的運(yùn)行速度相較于單核CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá)、AMD等公司不斷推進(jìn)其GPU的大規(guī)模并行架構(gòu)支持，面向通用計(jì)算的GPU(即GPGPU，GENERAL PURPOSE GPU，通用計(jì)算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段。

　　CPU及GPU結(jié)構(gòu)及功能對(duì)比

　　GPU的發(fā)展經(jīng)歷了三個(gè)階段：第一代GPU(1999年以前)，部分功能從CPU分離，實(shí)現(xiàn)硬件加速，以GE(GEOMETRY ENGINE)為代表，只能起到3D 圖像處理的加速作用，不具有軟件編程特性。

　　第二代GPU(1999-2005年)，實(shí)現(xiàn)進(jìn)一步的硬件加速和有限的編程性。1999年英偉達(dá)GEFORCE 256將T&L(TRANSFORM AND LIGHTING)等功能從CPU分離出來(lái)，實(shí)現(xiàn)了快速變換，這成為GPU真正出現(xiàn)的標(biāo)志;2001年英偉達(dá)和ATI分別推出的GEFORCE3和RADEON 8500，圖形硬件的流水線被定義為流處理器，出現(xiàn)了頂點(diǎn)級(jí)可編程性，同時(shí)像素級(jí)也具有有限的編程性，但GPU 的編程性比較有限。

　　第三代GPU(2006年以后)，GPU實(shí)現(xiàn)方便的編程環(huán)境可以直接編寫(xiě)程序;2006年英偉達(dá)與ATI分別推出了CUDA(COMPUTER UNIFIED DEVICE ARCHITECTURE，統(tǒng)一計(jì)算架構(gòu))編程環(huán)境和CTM(CLOSE TO THE METAL)編程環(huán)境;2008年，蘋(píng)果公司提出一個(gè)通用的并行計(jì)算編程平臺(tái)OPENCL(OPEN COMPUTING LANGUAGE，開(kāi)放運(yùn)算語(yǔ)言)，與CUDA綁定在英偉達(dá)的顯卡上不同，OPENCL和具體的計(jì)算設(shè)備沒(méi)有關(guān)系。

　　GPU芯片的發(fā)展階段

　　目前，GPU已經(jīng)發(fā)展到較為成熟的階段。谷歌、FACEBOOK、微軟、TWITTER和百度等公司都在使用GPU分析圖片、視頻和音頻文件，以改進(jìn)搜索和圖像標(biāo)簽等應(yīng)用功能。GPU也被應(yīng)用于VR/AR 相關(guān)的產(chǎn)業(yè)。此外，很多汽車(chē)生產(chǎn)商也在使用GPU芯片發(fā)展無(wú)人駕駛。

　　根據(jù)研究公司TRACTICA LLC 預(yù)測(cè)，用于人工智能的GPU將從2016年的不到一億美元增長(zhǎng)到2025年的140億美元，GPU將出現(xiàn)爆炸式增長(zhǎng)。

　　2016-2025年不同區(qū)域人工智能GPU收入預(yù)測(cè)(來(lái)源：TRACTICA)

　　近十年來(lái)，人工智能的通用計(jì)算GPU完全由英偉達(dá)引領(lǐng)。2010年英偉達(dá)就開(kāi)始布局人工智能產(chǎn)品，2014年宣布了新一代PASCAL GPU芯片架構(gòu)，這是英偉達(dá)的第五代GPU架構(gòu)，也是首個(gè)為深度學(xué)習(xí)而設(shè)計(jì)的GPU，它支持所有主流的深度學(xué)習(xí)計(jì)算框架。2016年上半年，英偉達(dá)又針對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程推出了基于PASCAL架構(gòu)的TESLA P100芯片以及相應(yīng)的超級(jí)計(jì)算機(jī)DGX-1。對(duì)于TESLA P100，英偉達(dá)首席執(zhí)行官黃仁勛稱(chēng)這款GPU的開(kāi)發(fā)費(fèi)用高達(dá)20億美元，而英偉達(dá)全年的營(yíng)收也不過(guò)才50億美元。深度學(xué)習(xí)超級(jí)計(jì)算機(jī)DGX-1包含TESLA P100 GPU加速器，并采用英偉達(dá)NVLINK互聯(lián)技術(shù)，軟件堆棧包含主要深度學(xué)習(xí)框架、深度學(xué)習(xí)SDK、DIGITS GPU訓(xùn)練系統(tǒng)、驅(qū)動(dòng)程序和CUDA，能夠快速設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)(DNN)。擁有高達(dá)170TFLOPS的半精度浮點(diǎn)運(yùn)算能力，相當(dāng)于250臺(tái)傳統(tǒng)服務(wù)器，可以將深度學(xué)習(xí)的訓(xùn)練速度加快75倍，將CPU性能提升56倍，報(bào)價(jià)12.9萬(wàn)美元。2016年9月北京GTC大會(huì)上，英偉達(dá)針對(duì)神經(jīng)網(wǎng)絡(luò)推理過(guò)程又推出了基于PASCAL的產(chǎn)品TESLA P4/P40。

　　AMD則在2016年底集中發(fā)布了一系列人工智能產(chǎn)品，包括3款圖形加速卡(品牌名MI)，4款OEM機(jī)箱和一系列開(kāi)源軟件，以及下一代VEGA架構(gòu)的GPU芯片。未來(lái)，AMD希望MI系列硬件加速器、ROCM 軟件平臺(tái)和基于ZEN的32核以及64核服務(wù)器CPU三者合力，為超算客戶(hù)提供一整套基于AMD產(chǎn)品線的解決方案。

　　除了英偉達(dá)和AMD之外，INTEL計(jì)劃在2017年將深度學(xué)習(xí)推理加速器和72核至強(qiáng)XEON PHI芯片推向市場(chǎng)。除了傳統(tǒng)的CPU、GPU大廠，移動(dòng)領(lǐng)域的眾巨頭在GPU的布局也非常值得關(guān)注。據(jù)說(shuō)蘋(píng)果也在搜羅GPU開(kāi)發(fā)人才以進(jìn)軍VR市場(chǎng)，目前蘋(píng)果A9的GPU性能與驍龍820相當(dāng)，A9 GPU采用

　　除了英偉達(dá)和AMD之外，INTEL計(jì)劃在2017年將深度學(xué)習(xí)推理加速器和72核至強(qiáng)XEON PHI芯片推向市場(chǎng)。除了傳統(tǒng)的CPU、GPU大廠，移動(dòng)領(lǐng)域的眾巨頭在GPU的布局也非常值得關(guān)注。據(jù)說(shuō)蘋(píng)果也在搜羅GPU開(kāi)發(fā)人才以進(jìn)軍VR市場(chǎng)，目前蘋(píng)果A9的GPU性能與驍龍820相當(dāng)，A9 GPU采用的是POWERVR ROGUE家族的另外一種設(shè)計(jì)——GT7600，而蘋(píng)果開(kāi)發(fā)的A9X處理器性能與INTEL的酷睿M處理器相當(dāng),斷了移動(dòng)處理器市場(chǎng)的ARM也開(kāi)始重視GPU市場(chǎng)，其推出的MALI系列GPU憑借低功耗、低價(jià)等優(yōu)勢(shì)逐漸崛起。

　人工智能芯片(三)：FPGA

　　FPGA(FIELD-PROGRAMMABLE GATE ARRAY)，即現(xiàn)場(chǎng)可編程門(mén)陣列，它是在PAL、GAL、CPLD 等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。用戶(hù)可以通過(guò)燒入FPGA配置文件來(lái)定義這些門(mén)電路以及存儲(chǔ)器之間的連線。這種燒入不是一次性的，即用戶(hù)可以把FPGA配置成一個(gè)微控制器MCU，使用完畢后可以編輯配置文件把同一個(gè)FPGA配置成一個(gè)音頻編解碼器。因此它既解決了定制電路靈活性的不足，又克服了原有可編程器件門(mén)電路數(shù)有限的缺點(diǎn)。

　　FPGA內(nèi)部包含大量重復(fù)的IOB、CLB和布線信道等基本單元。FPGA在出廠時(shí)是“萬(wàn)能芯片”，用戶(hù)可根據(jù)自身需求，用硬件描述語(yǔ)言(HDL)對(duì)FPGA的硬件電路進(jìn)行設(shè)計(jì);每完成一次燒錄，F(xiàn)PGA內(nèi)部的硬件電路就有了確定的連接方式，具有了一定的功能;輸入的數(shù)據(jù)只需要依次經(jīng)過(guò)各個(gè)門(mén)電路，就可以得到輸出結(jié)果。換言之，F(xiàn)PGA的輸入到輸出之間并沒(méi)有計(jì)算過(guò)程，只是通過(guò)燒錄好的硬件電路完成信號(hào)的傳輸，因此對(duì)于計(jì)算任務(wù)的針對(duì)性非常強(qiáng)，速度很高。而正是因?yàn)镕PGA的這種工作模式，決定了需要預(yù)先布置大量門(mén)陣列以滿(mǎn)足用戶(hù)的設(shè)計(jì)需求，因此有“以面積換速度”的說(shuō)法：使用大量的門(mén)電路陣列，消耗更多的FPGA內(nèi)核資源，用來(lái)提升整個(gè)系統(tǒng)的運(yùn)行速度。

　　FPGA在人工智能領(lǐng)域的應(yīng)用

　　FPGA可同時(shí)進(jìn)行數(shù)據(jù)并行和任務(wù)并行計(jì)算，在處理特定應(yīng)用時(shí)有更加明顯的效率。對(duì)于某個(gè)特定運(yùn)算，通用CPU可能需要多個(gè)時(shí)鐘周期;而FPGA可以通過(guò)編程重組電路，直接生成專(zhuān)用電路，僅消耗少量甚至一次時(shí)鐘周期就可完成運(yùn)算。

　　在功耗方面，F(xiàn)PGA也具有明顯優(yōu)勢(shì)，其能耗比是 CPU的10倍以上、GPU的3倍。究其原因，在FPGA中沒(méi)有去指令與指令譯碼操作，在INTEL的CPU里，由于使用了CISC架構(gòu)，僅僅譯碼就占整個(gè)芯片能耗的約50%;在GPU里，取指與譯碼也消耗10%至20%的能耗。

　　此外，由于FPGA的靈活性，很多使用通用處理器或ASIC難以實(shí)現(xiàn)的下層硬件控制操作技術(shù)利用FPGA可以很方便的實(shí)現(xiàn)，從而為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大空間。同時(shí)FPGA一次性成本(光刻掩模制作成本)遠(yuǎn)低于ASIC，在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定需要不斷迭代改進(jìn)的情況下，利用具備可重構(gòu)特性的FPGA芯片來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇。

　　由于FPGA靈活快速的特點(diǎn)，在眾多領(lǐng)域都有替代ASIC的趨勢(shì)，據(jù)市場(chǎng)機(jī)構(gòu)GRANDVIEW RESEARCH的數(shù)據(jù)，F(xiàn)PGA市場(chǎng)將從2015年的63.6億增長(zhǎng)到2024年的約110億美元，年均增長(zhǎng)率在6%。

　　2014-2024年全球FPGA市場(chǎng)規(guī)模預(yù)測(cè)(來(lái)源：GRANDVIEW RESEARCH)

　　目前，F(xiàn)PGA市場(chǎng)基本上全部被國(guó)外XILINX、ALTERA(現(xiàn)并入INTEL)、LATTICE、MICROSEMI四家占據(jù)。其中XILINX和ALTERA兩大公司對(duì)FPGA的技術(shù)與市場(chǎng)占據(jù)絕對(duì)壟斷地位。在ALTERA尚未被INTEL收購(gòu)的2014年，XILINX和ALTERA分別實(shí)現(xiàn)23.8億美元和19.3億美元的營(yíng)收，分別占有48%和41%的市場(chǎng)份額，而同年LATTICE和MICROSEMI(僅FPGA業(yè)務(wù)部分)兩公司營(yíng)收為3.66億美元和2.75億美元，前兩大廠商占據(jù)了近90%的市場(chǎng)份額。

　　2015年FPGA廠商市場(chǎng)份額分析(來(lái)源：IHS)

　　人工智能芯片(四)：專(zhuān)用集成電路

　　目前以深度學(xué)習(xí)為代表的人工智能計(jì)算需求，主要采用GPU、FPGA等已有適合并行計(jì)算的通用芯片來(lái)實(shí)現(xiàn)加速。在產(chǎn)業(yè)應(yīng)用沒(méi)有大規(guī)模興起之時(shí)，使用這類(lèi)已有的通用芯片可以避免專(zhuān)門(mén)研發(fā)定制芯片(ASIC)的高投入和高風(fēng)險(xiǎn)。但是，由于這類(lèi)通用芯片設(shè)計(jì)初衷并非專(zhuān)門(mén)針對(duì)深度學(xué)習(xí)，因而天然存在性能、功耗等方面的瓶頸。隨著人工智能應(yīng)用規(guī)模的擴(kuò)大，這類(lèi)問(wèn)題將日益突出。

　　GPU 作為圖像處理器，設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中需要大規(guī)模并行計(jì)算。因此，其在應(yīng)用于深度學(xué)習(xí)算法時(shí)，有三個(gè)方面的局限性：第一，應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和應(yīng)用兩個(gè)計(jì)算環(huán)節(jié)，GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效，但在應(yīng)用時(shí)一次性只能對(duì)于一張輸入圖像進(jìn)行處理，并行度的優(yōu)勢(shì)不能完全發(fā)揮。第二，硬件結(jié)構(gòu)固定不具備可編程性。深度學(xué)習(xí)算法還未完全穩(wěn)定，若深度學(xué)習(xí)算法發(fā)生大的變化，GPU無(wú)法像FPGA一樣可以靈活的配制硬件結(jié)構(gòu); 第三，運(yùn)行深度學(xué)習(xí)算法能效遠(yuǎn)低于FPGA。

　　盡管FPGA倍受看好，甚至新一代百度大腦也是基于FPGA平臺(tái)研發(fā)，但其畢竟不是專(zhuān)門(mén)為了適用深度學(xué)習(xí)算法而研發(fā)，實(shí)際仍然存在不少局限：第一，基本單元的計(jì)算能力有限。為了實(shí)現(xiàn)可重構(gòu)特性，F(xiàn)PGA內(nèi)部有大量極細(xì)粒度的基本單元，但是每個(gè)單元的計(jì)算能力(主要依靠LUT查找表)都遠(yuǎn)遠(yuǎn)低于CPU和GPU中的ALU模塊。第二，速度和功耗相對(duì)專(zhuān)用定制芯片(ASIC)仍然存在不小差距; 第三，F(xiàn)PGA價(jià)格較為昂貴，在規(guī)模放量的情況下單塊FPGA的成本要遠(yuǎn)高于專(zhuān)用定制芯片。

　　因此，隨著人工智能算法和應(yīng)用技術(shù)的日益發(fā)展，以及人工智能專(zhuān)用芯片ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟，人工智能ASIC將成為人工智能計(jì)算芯片發(fā)展的必然趨勢(shì)。

　　首先，定制芯片的性能提升非常明顯。例如英偉達(dá)首款專(zhuān)門(mén)為深度學(xué)習(xí)從零開(kāi)始設(shè)計(jì)的芯片Tesla P100數(shù)據(jù)處理速度是其2014年推出GPU系列的12倍。谷歌為機(jī)器學(xué)習(xí)定制的芯片TPU將硬件性能提升至相當(dāng)于當(dāng)前芯片按摩爾定律發(fā)展7年后的水平。正如CPU改變了當(dāng)年龐大的計(jì)算機(jī)一樣，人工智能ASIC芯片也將大幅改變?nèi)缃馎I硬件設(shè)備的面貌。如大名鼎鼎的AlphaGo使用了約170個(gè)圖形處理器(GPU)和1200 個(gè)中央處理器(CPU)，這些設(shè)備需要占用一個(gè)機(jī)房，還要配備大功率的空調(diào)，以及多名專(zhuān)家進(jìn)行系統(tǒng)維護(hù)。而如果全部使用專(zhuān)用芯片，非常可能只需要一個(gè)盒子大小，且功耗也會(huì)大幅降低。

　　第二，下游需求促進(jìn)人工智能芯片專(zhuān)用化。從服務(wù)器，計(jì)算機(jī)到無(wú)人駕駛汽車(chē)、無(wú)人機(jī)再到智能家居的各類(lèi)家電，至少數(shù)十倍于智能手機(jī)體量的設(shè)備需要引入感知交互能力和人工智能計(jì)算能力。而出于對(duì)實(shí)時(shí)性的要求以及訓(xùn)練數(shù)據(jù)隱私等考慮，這些能力不可能完全依賴(lài)云端，必須要有本地的軟硬件基礎(chǔ)平臺(tái)支撐，這將帶來(lái)海量的人工智能芯片的需求。

　　近兩年，國(guó)內(nèi)國(guó)外人工智能芯片層出不窮。英偉達(dá)在2016年宣布研發(fā)投入超過(guò)20億美元用于深度學(xué)習(xí)專(zhuān)用芯片，而谷歌為深度學(xué)習(xí)定制的TPU芯片甚至已經(jīng)秘密運(yùn)行一年，該芯片直接支撐了震驚全球的人機(jī)圍棋大戰(zhàn)。無(wú)論是英偉達(dá)、谷歌、IBM、高通還是國(guó)內(nèi)的中星微、寒武紀(jì)，巨頭和新創(chuàng)企業(yè)都將人工智能芯片視為具有戰(zhàn)略意義的關(guān)鍵技術(shù)進(jìn)行布局，人工智能芯片正呈現(xiàn)百花齊放的局面。

　　人工智能專(zhuān)用芯片研發(fā)情況一覽

　　目前人工智能專(zhuān)用芯片的發(fā)展方向包括：主要基于FPGA的半定制、針對(duì)深度學(xué)習(xí)算法的全定制和類(lèi)腦計(jì)算芯片三個(gè)階段。

　　在芯片需求還未成規(guī)模、深度學(xué)習(xí)算法暫未穩(wěn)定需要不斷迭代改進(jìn)的情況下，利用具備可重構(gòu)特性的FPGA芯片來(lái)實(shí)現(xiàn)半定制的人工智能芯片是最佳選擇。這類(lèi)芯片中的杰出代表是國(guó)內(nèi)初創(chuàng)公司深鑒科技，該公司設(shè)計(jì)了“深度學(xué)習(xí)處理單元”(Deep Processing Unit，DPU)的芯片，希望以ASIC級(jí)別的功耗來(lái)達(dá)到優(yōu)于GPU的性能，其第一批產(chǎn)品就是基于FPGA平臺(tái)。這種半定制芯片雖然依托于FPGA平臺(tái)，但是利用抽象出了指令集與編譯器，可以快速開(kāi)發(fā)、快速迭代，與專(zhuān)用的FPGA加速器產(chǎn)品相比，也具有非常明顯的優(yōu)勢(shì)。

　　在針對(duì)深度學(xué)習(xí)算法的全定制階段，芯片是完全采用 ASIC 設(shè)計(jì)方法全定制，性能、功耗和面積等指標(biāo)面向深度學(xué)習(xí)算法都做到了最優(yōu)。谷歌的TPU芯片、我國(guó)中科院計(jì)算所的寒武紀(jì)深度學(xué)習(xí)處理器芯片就是這類(lèi)芯片的典型代表。

　　在類(lèi)腦計(jì)算階段，芯片的設(shè)計(jì)目的不再局限于僅僅加速深度學(xué)習(xí)算法，而是在芯片基本結(jié)構(gòu)甚至器件層面上希望能夠開(kāi)發(fā)出新的類(lèi)腦計(jì)算機(jī)體系結(jié)構(gòu)，比如會(huì)采用憶阻器和ReRAM等新器件來(lái)提高存儲(chǔ)密度。這類(lèi)芯片的研究離成為市場(chǎng)上可以大規(guī)模廣泛使用的成熟技術(shù)還有很大的差距，甚至有很大的風(fēng)險(xiǎn)，但是長(zhǎng)期來(lái)看類(lèi)腦芯片有可能會(huì)帶來(lái)計(jì)算體系的革命。這類(lèi)芯片的典型代表是IBM的Truenorh芯片。類(lèi)腦計(jì)算芯片市場(chǎng)空間巨大。根據(jù)第三方預(yù)測(cè)，包含消費(fèi)終端的類(lèi)腦計(jì)算芯片市場(chǎng)將在2022年以前達(dá)到千億美元的規(guī)模，其中消費(fèi)終端是最大市場(chǎng)，占整體98%，其他需求包括工業(yè)檢測(cè)、航空、軍事與國(guó)防等領(lǐng)域。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 人工智能 FPGA

評(píng)論

相關(guān)推薦

實(shí)時(shí)的噪聲源定位系統(tǒng)

視頻 NI LabVIEW FPGA | 2009-03-25

利用強(qiáng)大的軟件設(shè)計(jì)工具為FPGA開(kāi)發(fā)者賦能

嵌入式系統(tǒng) 軟件設(shè)計(jì)工具 FPGA 萊迪思 | 2024-07-17

Altera的FPGA下載常見(jiàn)問(wèn)題經(jīng)驗(yàn)小結(jié)

資源下載 Altera FPGA 常見(jiàn)問(wèn)題經(jīng)驗(yàn) | 2007-12-13

LabVIEW FPGA 模塊簡(jiǎn)介

視頻 NI LabVIEW FPGA | 2009-04-01

高速ADC與內(nèi)置嵌入式串行收發(fā)器的FPGA接口

視頻 Altera FPGA ADC Linear 串行收發(fā)器 | 2009-05-19

推動(dòng)電動(dòng)汽車(chē)發(fā)展：利用機(jī)器視覺(jué)和人工智能提升鋰離子電池質(zhì)量

智能計(jì)算電動(dòng)汽車(chē) 機(jī)器視覺(jué)檢測(cè) 人工智能 | 2024-07-18

FPGA如何同DDR3存儲(chǔ)器進(jìn)行接口?

視頻 Altera FPGA DDR3 | 2008-06-18

有簡(jiǎn)單人工智能的溫度控制電路圖

設(shè)計(jì)方案簡(jiǎn)單人工智能溫度控制電路圖 | 2010-09-01

借助電源完整性測(cè)試提高人工智能數(shù)據(jù)中心的能效

測(cè)試測(cè)量電源完整性測(cè)試人工智能數(shù)據(jù)中心 | 2024-07-19

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

LatticeECP3設(shè)計(jì)的視頻協(xié)議板電路圖-FPGA配置

設(shè)計(jì)方案 LatticeECP3 設(shè)計(jì) 視頻協(xié)議電路圖 -FPGA | 2011-06-27

ST Edge AI Suite人工智能開(kāi)發(fā)套件正式上線快采用意法半導(dǎo)體技術(shù)的AI產(chǎn)品開(kāi)發(fā)速度

智能計(jì)算 ST Edge AI Suite 人工智能意法半導(dǎo)體 AI | 2024-07-08

LabVIEW 8.20技術(shù)資料大全簡(jiǎn)介

資源下載 NI LabVIEW 射頻和通信 FPGA | 2007-12-11

s3c2410+fpga 做視頻無(wú)線傳輸

herbertwj | 2004-08-15

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

Altera公司cyclone系列FPGA-1C6電路圖

設(shè)計(jì)方案 Altera 公司 cyclone 系列 FPGA-1C6 | 2009-07-17

Altera: 采用全系列40-nm收發(fā)器FPGA和ASIC實(shí)現(xiàn)創(chuàng)新

視頻 Altera FPGA ASIC | 2009-07-13

簡(jiǎn)單人工智能的溫度控制電路

設(shè)計(jì)方案簡(jiǎn)單人工智能溫度控制 | 2009-07-06

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

AMD斥資6.65億美元收購(gòu)芬蘭AI公司 Silo AI

智能計(jì)算 AMD silo AI 人工智能 | 2024-07-15

基于FPGA的可編程數(shù)字濾波器系統(tǒng)

資源下載 Max FPGA 可編程數(shù)字濾波器 | 2007-12-14

OpenAI陷入安全危機(jī)：攻擊者成功入侵內(nèi)部消息系統(tǒng)

OpenAI 人工智能 | 2024-07-08

ALTERA的PCI_IP Core問(wèn)答集

資源下載 Altera FPGA PCI_IP Core | 2007-12-13

新一代語(yǔ)音識(shí)別：可徹底改變車(chē)內(nèi)體驗(yàn)的技術(shù)

汽車(chē)電子語(yǔ)音識(shí)別生物識(shí)別人工智能 | 2024-07-18

傳蘋(píng)果智能將錯(cuò)過(guò)iOS 18 9月份大升級(jí) 推遲1個(gè)月發(fā)布

手機(jī)與無(wú)線通信蘋(píng)果智能 iOS 18 推遲人工智能 iPhone iPad Apple Intelligence | 2024-07-29

3-DES算法的FPGA高速實(shí)現(xiàn)(Xilinx)

資源下載 Xilinx FPGA 3-DES算法 | 2007-12-13

萊迪思全新推出邏輯優(yōu)化的通用FPGA拓展其小型FPGA產(chǎn)品組合

嵌入式系統(tǒng) 萊迪思 FPGA 小型FPGA | 2024-07-23

有簡(jiǎn)單人工智能的溫度控制電路

設(shè)計(jì)方案簡(jiǎn)單人工智能溫度控制 | 2009-09-01

用C/C++語(yǔ)言開(kāi)發(fā)大規(guī)模FPGA [轉(zhuǎn)載于www.fpga.com.cn]

xiaohua | 2002-09-24

馬斯克詢(xún)問(wèn)網(wǎng)友：特斯拉向xAI投50億美元行不行

智能計(jì)算馬斯克特斯拉 xAI 人工智能 | 2024-07-25

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();