從任務(wù)角度分析深度學(xué)習(xí)硬件發(fā)展趨勢(shì)
從微小器件到海量數(shù)據(jù)中心,格外強(qiáng)勁的硬件將能為深度學(xué)習(xí)領(lǐng)域內(nèi)的一切提供助力。
本文引用地址:http://www.ex-cimer.com/article/201701/342412.htm2016 年 3 月份,谷歌 DeepMind 的計(jì)算機(jī)在多輪圍棋比賽中擊敗了世界圍棋冠軍李世乭。這一事件標(biāo)志著人工智能領(lǐng)域內(nèi)的一個(gè)新里程碑。獲勝的 AlphaGo 借力于現(xiàn)在為大家所熟知的深度學(xué)習(xí)——一種人工神經(jīng)網(wǎng)絡(luò);在這種神經(jīng)網(wǎng)絡(luò)里有很多計(jì)算處理層,可以用來(lái)自動(dòng)尋找問(wèn)題的解決方案。
那時(shí)候人們還不知道谷歌正在悄然開(kāi)發(fā)為這一勝利提供助力的秘密武器——一種專用硬件,在谷歌用于擊敗世界冠軍李世石的計(jì)算機(jī)里已有這種特殊硬件。這種硬件被谷歌稱為張量處理單元(TPU/Tensor Processing Unit)。
谷歌的一位硬件工程師 Norm Jouppi 在這場(chǎng)圍棋大戰(zhàn)的兩個(gè)月后宣布了張量處理單元的存在,并解釋說(shuō)谷歌的數(shù)據(jù)中心已經(jīng)使用這些新型加速器一年多了。谷歌還沒(méi)有公布這些集成板上到底有什么奧妙,但毫無(wú)疑問(wèn)的是,這代表著加速深度學(xué)習(xí)計(jì)算上的一個(gè)日益流行的策略:使用專用集成電路(ASIC)。
來(lái)自深度學(xué)習(xí)軟件的收入很快就將超過(guò)十億美元(單位:十億美元;來(lái)源: Tractica)
企業(yè)(主要是微軟)追求的另一個(gè)戰(zhàn)術(shù)是使用現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA),其有可重配置的優(yōu)勢(shì),可以根據(jù)計(jì)算需求進(jìn)行修改。而更常見(jiàn)的方法則是使用圖形處理單元(GPU),這種計(jì)算設(shè)備可以并行地同時(shí)執(zhí)行大量數(shù)學(xué)運(yùn)算。最知名的 GPU 提供商英偉達(dá)(NVIDIA)近段時(shí)間以來(lái)的股價(jià)飛漲也正是得益于此。
事實(shí)上,GPU 在 2009 年的時(shí)候就已經(jīng)在驅(qū)動(dòng)人工神經(jīng)網(wǎng)絡(luò)了,那時(shí)候斯坦大學(xué)的一些研究者證明這種硬件使得深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間很適宜。
「今天所有人都在做深度學(xué)習(xí),」斯坦福大學(xué) Concurrent VLSI Architecture 研究組的領(lǐng)導(dǎo)者兼英偉達(dá)首席科學(xué)家 William Dally 說(shuō)。他說(shuō)這從他的角度來(lái)看是不足為奇的?!窯PU 幾乎和你想象的一樣美好?!?/p>
Dally 解釋說(shuō)有三個(gè)獨(dú)立的領(lǐng)域需要考慮。第一是他所說(shuō)的「數(shù)據(jù)中心中的訓(xùn)練」。他認(rèn)為任何深度學(xué)習(xí)系統(tǒng)的第一步都是:調(diào)節(jié)神經(jīng)元之間大約數(shù)百萬(wàn)個(gè)連接以使網(wǎng)絡(luò)能夠完成分配給它的任務(wù)。
已被英特爾收購(gòu)的公司 Nervana Systems 在這種任務(wù)的硬件開(kāi)發(fā)上取得了領(lǐng)先。Nervana 計(jì)算機(jī)科學(xué)家 Scott Leishman 表示 Nervana Engine 是一款 ASIC 的深度學(xué)習(xí)加速器,其將在 2017 年初期到中期的時(shí)候投入生產(chǎn)。Leishman 指出另一個(gè)計(jì)算密集型任務(wù)——比特幣挖礦(bitcoin mining),就曾經(jīng)從 CPU 實(shí)現(xiàn)轉(zhuǎn)向 GPU,然后轉(zhuǎn)向 FPGA 并最終轉(zhuǎn)向了 ASIC,因?yàn)槎ㄖ频挠布軌驅(qū)崿F(xiàn)更優(yōu)的能量效率。他說(shuō):「我認(rèn)為同樣的情況正在深度學(xué)習(xí)領(lǐng)域發(fā)生?!?/p>
Dally 說(shuō),深度學(xué)習(xí)硬件的第二個(gè)任務(wù)(大為異于第一個(gè)任務(wù))是「數(shù)據(jù)中心中的推理」?!竿评?inference)」這個(gè)詞在這里的意思是:用于之前任務(wù)的已訓(xùn)練的基于云的人工神經(jīng)網(wǎng)絡(luò)在同樣的任務(wù)上能進(jìn)行持續(xù)運(yùn)算。谷歌的神經(jīng)網(wǎng)絡(luò)每天都要執(zhí)行天文數(shù)字級(jí)別的推理計(jì)算,以幫助用戶分類圖片、翻譯語(yǔ)言和識(shí)別口語(yǔ)等等。盡管外界還不能百分之百確定,但可以推理谷歌的張量處理單元應(yīng)該在為這些計(jì)算提供助力。
加滿油門(mén):谷歌的 TPU 正在該公司的服務(wù)器里加速深度學(xué)習(xí)計(jì)算
訓(xùn)練和推理常常需要運(yùn)用不同的技能設(shè)置。通常對(duì)訓(xùn)練的設(shè)置上,機(jī)器必須能夠?qū)嵤┚_度相對(duì)較高的計(jì)算,常使用 32 位的浮點(diǎn)計(jì)算。對(duì)于推理,則可以犧牲精確度以獲取更快的速度和更低的功耗?!高@是研究領(lǐng)域里一個(gè)很活躍的區(qū)域,」Leishman 說(shuō)道?!改隳苓_(dá)到的最低限度是多少?」
雖然 Dally 謝絕泄露英偉達(dá)的特別計(jì)劃,但他指出英偉達(dá)的 GPU 正在完成升級(jí)。英偉達(dá)的早期版本——Maxwell 的架構(gòu)能夠進(jìn)行雙精度(64 位)和單精度(32 位)的計(jì)算,而目前的 Pascal 架構(gòu)則增加了處理 16 位運(yùn)算的能力,支持雙倍輸入且效率也是之前單精度計(jì)算的兩倍。所以不難想象英偉達(dá)最終將會(huì)推出能進(jìn)行 8 位運(yùn)算的 GPU,這樣的 GPU 將是在云端進(jìn)行推理運(yùn)算的理想硬件,因?yàn)閷?duì)云端推理來(lái)說(shuō)能源效率是控制成本的關(guān)鍵因素。
Dally 補(bǔ)充說(shuō):「三個(gè)支撐深度學(xué)習(xí)關(guān)鍵任務(wù)的最后一個(gè)任務(wù)就是在嵌入式設(shè)備里進(jìn)行推理,」比如智能手機(jī)、相機(jī)和平板電腦。對(duì)于這些應(yīng)用,關(guān)鍵是實(shí)現(xiàn)低能耗的專用集成電路(ASIC)。在即將來(lái)到的一年,深度學(xué)習(xí)軟件將會(huì)越來(lái)越多的實(shí)現(xiàn)手機(jī)端應(yīng)用,比如目前已有的手機(jī)端應(yīng)用——惡意軟件檢測(cè)以及圖片中的文字翻譯。
除此之外,無(wú)人機(jī)生產(chǎn)商大疆(DJI)已經(jīng)開(kāi)始在其幽靈 4(Phantom 4)無(wú)人機(jī)中使用與專用集成電路的深度學(xué)習(xí)相類似的器件,大疆所使用的器件是一個(gè)由加州廠商 Movidius 制造的特殊視覺(jué)處理芯片,這個(gè)芯片用來(lái)識(shí)別障礙物。(Movidius 同時(shí)也是英特爾最近收購(gòu)的另一家神經(jīng)網(wǎng)絡(luò)相關(guān)的公司)。與此同時(shí)高通(Qualcomm)在其 Snapdragon 820 處理器里放置了一個(gè)特殊的電路系統(tǒng)來(lái)更好地執(zhí)行深度學(xué)習(xí)運(yùn)算。
雖然目前有很多因素促使硬件設(shè)計(jì)來(lái)加速深度神經(jīng)網(wǎng)絡(luò)的計(jì)算,但巨大的風(fēng)險(xiǎn)依然并存:如果神經(jīng)網(wǎng)絡(luò)的進(jìn)步太快,所設(shè)計(jì)來(lái)運(yùn)行過(guò)往的神經(jīng)網(wǎng)絡(luò)的芯片在出廠時(shí)就會(huì)過(guò)時(shí)。「算法正以非??斓乃俣雀淖?,」Dally 說(shuō)?!杆袕氖聵?gòu)建這些硬件的人都在試圖贏得這場(chǎng)賭注?!?/p>
評(píng)論