千億美金市場,人工智能芯片競賽正式開啟
現(xiàn)在的深度學(xué)習(xí)系統(tǒng)依賴于軟件定義網(wǎng)絡(luò)和大數(shù)據(jù)學(xué)習(xí)產(chǎn)生的超大型運算能力,并靠此來實現(xiàn)目標(biāo)。但很遺憾的是,這類型的運算配置是很難嵌入到那些運算能力、存儲大小、和帶寬都有限制的系統(tǒng)中(例如汽車、無人機和物聯(lián)網(wǎng)設(shè)備)。
這就給業(yè)界提出了一個新的挑戰(zhàn),如何通過創(chuàng)新,把深度神經(jīng)網(wǎng)絡(luò)的運算能力嵌入到終端設(shè)備中去。
Movidius公司的CEORemiEl-Ouazzane在幾個月前說過,將人工智能擺在網(wǎng)絡(luò)的邊緣將會是一個大趨勢。
RemiEl-Ouazzane
在問到為什么人工智能會被“趕”到網(wǎng)絡(luò)邊緣的時候,CEAArchitectureFellowMarcDuranton給出了三個原因:分別是安全、隱私和經(jīng)濟。他認(rèn)為這三點是驅(qū)動業(yè)界在終端處理數(shù)據(jù)的重要因素。他指出,未來將會衍生更多“將數(shù)據(jù)轉(zhuǎn)化為信息”的需求。并且這些數(shù)據(jù)越早處理越好,他補充說。
CEAArchitectureFellowMarcDuranton
攝像一下,假如你的無人駕駛汽車是安全的,那么這些無人駕駛功能就不需要長時間依賴于聯(lián)盟處理;假設(shè)老人在家里跌倒了,那么這種情況當(dāng)場就應(yīng)該檢測到并判斷出來??紤]到隱私原因,這些是非常重要的,Duranton強調(diào)。
但這并不意味著收集家里十個攝像頭的所有圖片,并傳送給我,就稱作一個號的提醒。這也并不能降低“能耗、成本和數(shù)據(jù)大小”,Duranton補充說。
競賽正式開啟
從現(xiàn)在的情景看來,芯片供應(yīng)商已經(jīng)意識到推理機的增長需求。包括Movidus(Myriad2),Mobileye(EyeQ4&5)和Nvidia(DrivePX)在內(nèi)的眾多半導(dǎo)體公司正在角逐低功耗、高性能的硬件加速器。幫助開發(fā)者更好的在嵌入式系統(tǒng)中執(zhí)行“學(xué)習(xí)”。
從這些廠商的動作和SoC的發(fā)展方向看來,在后智能手機時代,推理機已經(jīng)逐漸成為半導(dǎo)體廠商追逐的下一個目標(biāo)市場。
在今年早些時候,Google的TPU橫空出世,昭示著業(yè)界意圖在機器學(xué)習(xí)芯片中推動創(chuàng)新的的意圖。在發(fā)布這個芯片的時候,搜索巨人表示,TPU每瓦性能較之傳統(tǒng)的FPGA和GPU將會高一個數(shù)量級。Google還表示,這個加速器還被應(yīng)用到了今年年初風(fēng)靡全球的AlphaGo系統(tǒng)里面。
但是從發(fā)布到現(xiàn)在,Google也從未披露過TPU的具體細節(jié),更別說把這個產(chǎn)品對外出售。
很多SoC從業(yè)者從谷歌的TPU中得出了一個結(jié)論,他們認(rèn)為,機器學(xué)習(xí)需要定制化的架構(gòu)。但在他們針對機器學(xué)習(xí)做芯片設(shè)計的時候,他們又會對芯片的架構(gòu)感到懷疑和好奇。同時他們想知道業(yè)界是否已經(jīng)有了一種衡量不同形態(tài)下深度神經(jīng)網(wǎng)絡(luò)(DNN)性能的工具。
工具已經(jīng)到來
CEA聲稱,他們已經(jīng)為幫推理機探索不同的硬件架構(gòu)做好了準(zhǔn)備,他們已經(jīng)開發(fā)出了一個叫做N2D2,的軟件架構(gòu)。他們夠幫助設(shè)計者探索和聲稱DNN架構(gòu)?!拔覀冮_發(fā)這個工具的目的是為了幫助DNN選擇適合的硬件”,Duranton說。到2017年第一季度,這個N2D2會開源。Duranton承諾。
N2D2的特點在于不僅僅是在識別精度的基礎(chǔ)上對比硬件,它還能從處理時間、硬件成本和能源損耗的多個方面執(zhí)行對比。因為針對不同的深度學(xué)習(xí)應(yīng)用,其所需求的硬件配置參數(shù)都是不一樣的,所以說以上幾點才是最重要的,Duranton表示。
N2D2的工作原理
N2D2為現(xiàn)存的CPU、GPU和FPGA提供了一個參考標(biāo)準(zhǔn)。
邊緣計算的障礙
作為一個資深的研究組織,CEA已經(jīng)在如何把DNN完美的推廣到邊緣計算領(lǐng)域進行了長時間的深入研究。在問到執(zhí)行這種推進的障礙時,Duranton指出,由于功耗、尺寸和延遲的限制,這些“浮點”服務(wù)器方案不能應(yīng)用。這就是最大的障礙。而其他的障礙包括了“大量的Mac、帶寬和芯片上存儲的尺寸”,Duranton補充說。
那就是說如何整合這種“浮點”方式,是最先應(yīng)該被解決的問題。
Duranton認(rèn)為,一些新的架構(gòu)是在所難免的,隨之而來的一些類似“spikecode”的新coding也是必然的。
經(jīng)過CEA的研究指出,甚至二進制編碼都不是必須的。他們認(rèn)為類似spikecoding這類的時間編碼在邊緣能夠迸發(fā)出更強大的能量。
Spikecoding之所以受歡迎,是因為它能明確展示神經(jīng)系統(tǒng)內(nèi)的數(shù)據(jù)解碼。往深里講,就是說這些基于事件的的編碼能夠兼容專用的傳感器和預(yù)處理。
這種和神經(jīng)系統(tǒng)極度相似的編碼方式使得混合模擬和數(shù)字信號更容易實現(xiàn),這也能夠幫助研究者打造低功耗的硬件加速器。
CEA也正在思考把神經(jīng)網(wǎng)絡(luò)架構(gòu)調(diào)整到邊緣計算的潛在可能。Duranton指出,現(xiàn)在人們正在推動使用‘SqueezeNet取替AlexNet。據(jù)報道,為達到同等精度,使用前者比后者少花50倍的參數(shù)。這類的簡單配置對于邊緣計算、拓?fù)鋵W(xué)和降低Mac的數(shù)量來說,都是很重要的。
Duranton認(rèn)為,從經(jīng)典的DNN轉(zhuǎn)向嵌入式網(wǎng)絡(luò)是一種自發(fā)的行為。
P-Neuro,一個臨時的芯片
CEA的野心是去開發(fā)一個神經(jīng)形態(tài)的電路。研究機構(gòu)認(rèn)為,在深度學(xué)習(xí)中,這樣的一個芯片是推動把數(shù)據(jù)提取放在傳感器端的一個有效補充。
但在達到這個目標(biāo)之前,CEA相處了很多權(quán)宜之計。例如開發(fā)出D2N2這樣的工具,幫助芯片開發(fā)者開發(fā)出高TOPS的DNN解決方案。
而對于那些想把DNN轉(zhuǎn)移到邊緣計算的玩家來說,他們也有相對應(yīng)的硬件去實現(xiàn)。這就是CEA提供的低功耗可編程加速器——P-Neuro。現(xiàn)行的P-Neuro芯片是基于FPGA開發(fā)的。但Duranton表示,他們已經(jīng)把這個FPAG變成了一個ASIC。
和嵌入式CPU對比的P-Neurodemo
在CEA的實驗室,Duranton他們已經(jīng)在這個基于FPAG的P-Neuro搭建了一個面部識別的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。這個基于P-Neuro的Demo和嵌入式CPU做了對比。(樹莓派、帶有三星Exynos處理器的安卓設(shè)備)。他們同樣都運行相同的CNN應(yīng)用。他們都安排去從18000個圖片的數(shù)據(jù)庫中去執(zhí)行“人臉特征提取”。
根據(jù)示例展示,P-Neuro的速度是6942張圖片每秒,而功耗也只是2776張圖每瓦。
P-Neuro和GPU、CPU的對比
如圖所示,和TegraK1相比,基于FPGA的P-Neuro在100Mhz工作頻率的時候,工作更快,且功耗更低。
P-Neuro是基于集群的SIMD架構(gòu)打造,這個架構(gòu)是以優(yōu)化的分級存儲器體系和內(nèi)部連接被大家熟知的。
P-Neuro的框圖
對于CEA的研究者來說,P-Neuro只是一個短期方案。現(xiàn)行的P-Neuro是在一個CMOS設(shè)備上打造的,使用的是二進制編碼。他們團隊正在打造一個全CMOS方案,并打算用spikecoding。
為了充分利用先進設(shè)備的優(yōu)勢,并且打破密度和功率的問題,他們團隊設(shè)立了一個更高的目標(biāo)。他們考慮過把RRAM當(dāng)做突觸元素,還考慮過FDSOI和納米線這樣的制程。
在一個“EUHorizon2020”的計劃里面,他們希望做出一個神經(jīng)形態(tài)架構(gòu)的芯片,能夠支持最先進的機器學(xué)習(xí)。同時還是一個基于spike的學(xué)習(xí)機制。
Neuromorphic處理器
這就是一個叫做NeuRAM3的項目。屆時,他們的芯片會擁有超低功耗、尺寸和高度可配置的神經(jīng)架構(gòu)。他們的目標(biāo)是較之傳統(tǒng)方案,打造一個能將功耗降低50倍的產(chǎn)品。
Neuromorphic處理器
Neuromorphic處理器的基本參數(shù)
據(jù)介紹,這個方案包含了基于FD-SOI工藝的整體集成的3D技術(shù),另外還用到的RRAM來做突觸元素。在NeuRAM3項目之下,這個新型的混合信號多核神經(jīng)形態(tài)芯片設(shè)備較之IBM的TrueNorth,能明顯降低功耗。
與IBM的TrueNorth對比
而NeuRAM3項目的參與者包括了IMEC,IBMZurich,STMicroelectronics,CNR(TheNationalResearchCouncilinItaly),IMSE(ElInstitutodeMicroelectrónicadeSevillainSpain),蘇黎世大學(xué)和德國的雅各布大學(xué)。
更多AI芯片角逐
其實AI芯片這個市場,已經(jīng)吸引了很多玩家,無論是傳統(tǒng)的半導(dǎo)體業(yè)者,還是所謂的初創(chuàng)企業(yè),都開始投奔這個下一個金礦。除了上面說的CEA這個。我們不妨來看一下市場上還有哪些AI芯片。
一、傳統(tǒng)廠商的跟進
(1)Nvidia
英偉達是GPU霸主,雖然錯過了移動時代,但他們似乎在AI時代,重獲榮光,從其過去一年內(nèi)的股票走勢,就可以看到市場對他們的信心。我們來看一下他有什么計劃,在這個領(lǐng)域。
在今年四月,Nvidia發(fā)布了一個先進的機器學(xué)習(xí)芯片——TeslaP100GPU。按照英偉達CEO黃仁勛所說,這個產(chǎn)品較之英偉達的前代產(chǎn)品,任務(wù)處理速度提高了12倍。這個耗費了20億美元開發(fā)的芯片上面集成了1500億個晶體管。據(jù)介紹,全新的NVIDIAPascal?架構(gòu)讓TeslaP100能夠為HPC和超大規(guī)模工作負(fù)載提供超高的性能。憑借每秒超過20萬億次的FP16浮點運算性能,經(jīng)過優(yōu)化的Pascal為深度學(xué)習(xí)應(yīng)用程序帶來了令人興奮的新可能。
而通過加入采用HBM2的CoWoS(晶圓基底芯片)技術(shù),TeslaP100將計算和數(shù)據(jù)緊密集成在同一個程序包內(nèi),其內(nèi)存性能是上一代解決方案的3倍以上。這讓數(shù)據(jù)密集型應(yīng)用程序的問題解決時間實現(xiàn)了跨時代的飛躍。
再者,因為搭載了NVIDIANVLink?技術(shù),TeslaP100的快速節(jié)點可以顯著縮短為具備強擴展能力的應(yīng)用程序提供解決方案的時間。采用NVLink技術(shù)的服務(wù)器節(jié)點可以5倍的PCIe帶寬互聯(lián)多達八個TeslaP100。這種設(shè)計旨在幫助解決擁有極大計算需求的HPC和深度學(xué)習(xí)領(lǐng)域的全球超級重大挑戰(zhàn)。
(2)Intel
在今年十一月。Intel公司發(fā)布了一個叫做Nervana的AI處理器,他們宣稱會在明年年中測試這個原型。如果一切進展順利,Nervana芯片的最終形態(tài)會在2017年底面世。這個芯片是基于Intel早前購買的一個叫做Nervana的公司。按照Intel的人所說,這家公司是地球上第一家專門為AI打造芯片的公司。
Intel公司披露了一些關(guān)于這個芯片的一些細節(jié),按照他們所說,這個項目代碼為“LakeCrest”,將會用到NervanaEngine和NeonDNN相關(guān)軟件。。這款芯片可以加速各類神經(jīng)網(wǎng)絡(luò),例如谷歌TensorFlow框架。芯片由所謂的“處理集群”陣列構(gòu)成,處理被稱作“活動點”的簡化數(shù)學(xué)運算。相對于浮點運算,這種方法所需的數(shù)據(jù)量更少,因此帶來了10倍的性能提升。
LakeCrest利用私有的數(shù)據(jù)連接創(chuàng)造了規(guī)模更大、速度更快的集群,其拓?fù)浣Y(jié)構(gòu)為圓環(huán)形或其他形式。這幫助用戶創(chuàng)造更大、更多元化的神經(jīng)網(wǎng)絡(luò)模型。這一數(shù)據(jù)連接中包含12個100Gbps的雙向連接,其物理層基于28G的串并轉(zhuǎn)換。
這一2.5D芯片搭載了32GB的HBM2內(nèi)存,內(nèi)存帶寬為8Tbps。芯片中沒有緩存,完全通過軟件去管理片上存儲。
英特爾并未透露這款產(chǎn)品的未來路線圖,僅僅表示計劃發(fā)布一個名為KnightsCrest的版本。該版本將集成未來的至強處理器和Nervana加速處理器。預(yù)計這將會支持Nervana的集群。不過英特爾沒有透露,這兩大類型的芯片將如何以及何時實現(xiàn)整合。
至于整合的版本將會有更強的性能,同時更易于編程。目前基于圖形處理芯片(GPU)的加速處理器使編程變得更復(fù)雜,因為開發(fā)者要維護單獨的GPU和CPU內(nèi)存。
據(jù)透露,到2020年,英特爾將推出芯片,使神經(jīng)網(wǎng)絡(luò)訓(xùn)練的性能提高100倍。一名分析師表示,這一目標(biāo)“極為激進”。毫無疑問,英特爾將迅速把這一架構(gòu)轉(zhuǎn)向更先進的制造工藝,與已經(jīng)采用14納米或16納米FinFET工藝的GPU展開競爭。
(3)IBM
百年巨人IBM,在很早以前就發(fā)布過wtson,現(xiàn)在他的人工智能機器早就投入了很多的研制和研發(fā)中去。而在去年,他也按捺不住,投入到類人腦芯片的研發(fā),那就是TrueNorth。
TrueNorth是IBM參與DARPA的研究項目SyNapse的最新成果。SyNapse全稱是SystemsofNeuromorphicAdaptivePlasticScalableElectronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng),而SyNapse正好是突觸的意思),其終極目標(biāo)是開發(fā)出打破馮?諾依曼體系的硬件。
這種芯片把數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸,跟傳統(tǒng)馮諾依曼結(jié)構(gòu)不一樣,它的內(nèi)存、CPU和通信部件是完全集成在一起。因此信息的處理完全在本地進行,而且由于本地處理的數(shù)據(jù)量并不大,傳統(tǒng)計算機內(nèi)存與CPU之間的瓶頸不復(fù)存在了。同時神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過來的脈沖(動作電位),這些神經(jīng)元就會同時做動作。
2011年的時候,IBM首先推出了單核含256個神經(jīng)元,256×256個突觸和256個軸突的芯片原型。當(dāng)時的原型已經(jīng)可以處理像玩Pong游戲這樣復(fù)雜的任務(wù)。不過相對來說還是比較簡單,從規(guī)模上來說,這樣的單核腦容量僅相當(dāng)于蟲腦的水平。
不過,經(jīng)過3年的努力,IBM終于在復(fù)雜性和使用性方面取得了突破。4096個內(nèi)核,100萬個“神經(jīng)元”、2.56億個“突觸”集成在直徑只有幾厘米的方寸(是2011年原型大小的1/16)之間,而且能耗只有不到70毫瓦,IBM的集成的確令人印象深刻。
這樣的芯片能夠做什么事情呢?IBM研究小組曾經(jīng)利用做過DARPA的NeoVision2Tower數(shù)據(jù)集做過演示。它能夠?qū)崟r識別出用30幀每秒的正常速度拍攝自斯坦福大學(xué)胡佛塔的十字路口視頻中的人、自行車、公交車、卡車等,準(zhǔn)確率達到了80%。相比之下,一臺筆記本編程完成同樣的任務(wù)用時要慢100倍,能耗卻是IBM芯片的1萬倍。
跟傳統(tǒng)計算機用FLOPS(每秒浮點運算次數(shù))衡量計算能力一樣,IBM使用SOP(每秒突觸運算數(shù))來衡量這種計算機的能力和能效。其完成460億SOP所需的能耗僅為1瓦—正如文章開頭所述,這樣的能力一臺超級計算機,但是一塊小小的助聽器電池即可驅(qū)動。
通信效率極高,從而大大降低能耗這是這款芯片最大的賣點。TrueNorth的每一內(nèi)核均有256個神經(jīng)元,每一個神經(jīng)有分別都跟內(nèi)外部的256個神經(jīng)元連接。
(4)Google
其實在Google上面,我是很糾結(jié)的,這究竟是個新興勢力,還是傳統(tǒng)公司。但考慮到Google已經(jīng)那么多年了,我就把他放在傳統(tǒng)里面吧。雖然傳統(tǒng)也是很新的。而谷歌的人工智能相關(guān)芯片就是TPU。也就是TensorProcessingUnit。
TPU是專門為機器學(xué)習(xí)應(yīng)用而設(shè)計的專用芯片。通過降低芯片的計算精度,減少實現(xiàn)每個計算操作所需的晶體管數(shù)量,從而能讓芯片的每秒運行的操作個數(shù)更高,這樣經(jīng)過精細調(diào)優(yōu)的機器學(xué)習(xí)模型就能在芯片上運行的更快,進而更快的讓用戶得到更智能的結(jié)果。Google將TPU加速器芯片嵌入電路板中,利用已有的硬盤PCI-E接口接入數(shù)據(jù)中心服務(wù)器中。
據(jù)Google資深副總UrsHolzle透露,當(dāng)前GoogleTPU、GPU并用,這種情況仍會維持一段時間,但也語帶玄機表示,GPU過于通用,Google偏好專為機器學(xué)習(xí)設(shè)計的芯片。GPU可執(zhí)行繪圖運算工作,用途多元;TPU屬于ASIC,也就是專為特定用途設(shè)計的特殊規(guī)格邏輯IC,由于只執(zhí)行單一工作,速度更快,但缺點是成本較高。至于CPU,Holzle表示,TPU不會取代CPU,研發(fā)TPU只是為了處理尚未解決的問題。但是他也指出,希望芯片市場能有更多競爭。
如果AI算法改變了(從邏輯上講隨著時間的推移算法應(yīng)該會改變),你是不是想要一款可以重新編程的芯片,以適應(yīng)這些改變?如果情況是這樣的,另一種芯片適合,它就是FPGA(現(xiàn)場可編程門陣列)。FPGA可以編程,和ASIC不同。微軟用一些FPGA芯片來增強必應(yīng)搜索引擎的AI功能。我們很自然會問:為什么不使用FPGA呢?
谷歌的回答是:FPGA的計算效率比ASIC低得多,因為它可以編程。TPU擁有一個指令集,當(dāng)TensorFlow程序改變時,或者新的算法出現(xiàn)時,它們可以在TPU上運行。
現(xiàn)在問題的答案開始浮現(xiàn)。在谷歌看來,能耗是一個重要的考量標(biāo)準(zhǔn),數(shù)據(jù)中心相當(dāng)巨大,建設(shè)在世界各地,包括芬蘭和臺灣。能耗越高,運營的成本就越高,隨著時間的推移實際消耗的金錢會成倍增長。谷歌工程師對比了FPGA和ASIC的效率,最終決定選擇ASIC。
問題的第二部分與TPU的指令集有關(guān)。這是一套基本的命令,它以硬編碼形式存在于芯片中,能夠識別、執(zhí)行;在芯片世界,指令集是計算機運行的基礎(chǔ)。
在開發(fā)TPU指令集時,它是專門用來運行TensorFlow的,TensorFlow是一個開源軟件庫,針對的是AI應(yīng)用的開發(fā)。谷歌認(rèn)為,如果AI有必要在底層進行改變,極可能發(fā)生在軟件上,芯片應(yīng)該具備彈性,以適應(yīng)這種改變。
TPU架構(gòu)的技術(shù)細節(jié)讓許多了解芯片的人驚奇。Anandtech的JoshuaHo有一個有趣的理論:TPU更加類似于第三類芯片,也就是所謂的數(shù)字信號處理器(DigitalSignalProcessor)。
(5)微軟
這是又一個由軟轉(zhuǎn)硬的代表,微軟蟄伏六年,打造出了一個迎接AI世代的芯片。那就是ProjectCatapult。
據(jù)介紹,這個FPGA目前已支持微軟Bing,未來它們將會驅(qū)動基于深度神經(jīng)網(wǎng)絡(luò)——以人類大腦結(jié)構(gòu)為基礎(chǔ)建模的人工智能——的新搜索算法,在執(zhí)行這個人工智能的幾個命令時,速度比普通芯片快上幾個數(shù)量級。有了它,你的計算機屏幕只會空屏23毫秒而不是4秒。
在第三代原型中,芯片位于每個服務(wù)器的邊緣,直接插入到網(wǎng)絡(luò),但仍舊創(chuàng)造任何機器都可接入的FPGA池。這開始看起來是Office365可用的東西了。最終,ProjectCatapult準(zhǔn)備好上線了。另外,Catapult硬件的成本只占了服務(wù)器中所有其他的配件總成本的30%,需要的運轉(zhuǎn)能量也只有不到10%,但其卻帶來了2倍原先的處理速度。
另外還有賽靈思、高通、中國寒武紀(jì)等一系列芯片投入到AI的研發(fā)。我們暫且按下。先看一下新興的AI芯片勢力。
二、新興勢力
(1)KnuEdge
KnuEdge實際上并不是一個初創(chuàng)公司,它由NASA的前任負(fù)責(zé)人創(chuàng)立,已經(jīng)在一個隱形模式下運營了10年。KnuEdge最近從隱形的模式中走出,并讓全世界知道他們從一個匿名的投資人獲取1億美元的投資用來開發(fā)一個新的“神經(jīng)元芯片”。
KUNPATH提供基于LambaFabric的芯片技術(shù),LambaFabric將會通過與現(xiàn)在市場上的GPUs、CPUs和FPGAs完全不同的架構(gòu)進行神經(jīng)網(wǎng)絡(luò)的計算。
LambdaFabric本質(zhì)上是為在高要求的運算環(huán)境下向上拓展至512000臺設(shè)備而設(shè)計,機架至機架延遲時間只有400毫微秒,低功耗的256核處理器。
KNUPATH技術(shù)以生物學(xué)原理為基礎(chǔ),將會重新定義數(shù)據(jù)中心和消費設(shè)備市場中的芯片級/系統(tǒng)級計算。
對比其他相似的芯片,這個芯片技術(shù)應(yīng)提供2倍到6倍的性能優(yōu)勢,并且公司已經(jīng)通過銷售他們的樣機系統(tǒng)獲得了收入。在“KnuEdge傘形結(jié)構(gòu)”下,KnuEdge由3個單獨的公司組成,KnuPath提供他們的芯片,KnuVerse提供通過驗證的軍事級的語音識別和驗證技術(shù),Knurld.io是一個允許開發(fā)者們?nèi)ズ唵蔚厝诤险Z音驗證到他們的專利產(chǎn)品的公共云API服務(wù)(PubliccloudAPIservice)。KnuEdge宣稱,現(xiàn)在只需要對著麥克風(fēng)說幾個詞就可以做到驗證電腦、網(wǎng)絡(luò)、移動應(yīng)用和物聯(lián)網(wǎng)設(shè)備。以后再也不用記住密碼將會是一件多棒的事情?
(2)Nervana
這個公司已經(jīng)被英特爾收購了,但我覺得我還是有必要介紹一下這個公司。Nervana創(chuàng)立于2014年,位于圣地亞哥的初創(chuàng)公司NervanaSystems已經(jīng)從20家不同的投資機構(gòu)那里獲得了2440萬美元資金,而其中一家是十分受人尊敬的德豐杰風(fēng)險投資公司(DraperFisherJurvetson,DFJ)。
在·TheNervanaEngine(將于2017年問世)是一個為深度學(xué)習(xí)專門定做和優(yōu)化的ASIC芯片。這個方案的實現(xiàn)得益于一項叫做HighBandwidthMemory的新型內(nèi)存技術(shù),同時擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內(nèi)存訪問速度。該公司目前提供一個人工智能服務(wù)“inthecloud”,他們聲稱這是世界上最快的且目前已被金融服務(wù)機構(gòu)、醫(yī)療保健提供者和政府機構(gòu)所使用的服務(wù),他們的新型芯片將會保證Nervana云平臺在未來的幾年內(nèi)仍保持最快的速度。
(3)地平線機器人
由余凱創(chuàng)立于2015年的初創(chuàng)企業(yè)HorizonRobotics(地平線機器人)已經(jīng)從包括Sequoia和傳奇的風(fēng)險資本家YuriMilner等投資人獲得了未透露金額的種子基金。后來更是獲得了已經(jīng)獲得了晨興、高瓴、紅杉、金沙江、線性資本、創(chuàng)新工場和真格基金的聯(lián)合投資。他們正在著手于建立一個一站式人工智能解決方案,定義“萬物智能”,讓生活更便捷、更有趣、更安全。
地平線致力于打造基于深度神經(jīng)網(wǎng)絡(luò)的人工智能“大腦”平臺-包括軟件和芯片,可以做到低功耗、本地化的解決環(huán)境感知、人機交互、決策控制等問題。
其中,軟件方面,地平線做了一套基于神經(jīng)網(wǎng)絡(luò)的OS,已經(jīng)研發(fā)出分別面向自動駕駛的的“雨果”平臺和智能家居的“安徒生”平臺,并開始逐步落地。硬件方面,未來地平線機器人還會為這個平臺設(shè)計一個芯片——NPU(NeuralProcessingUnit),支撐自家的OS,到那時效能會提升2-3個數(shù)量級(100-1000倍)。
安徒生平臺方面,今年3月上海的家博會上,地平線機器人展示了與家電大廠合作的智能家電,近期還會推出其他新品。雨果平臺方面,今年3月9日奇點汽車發(fā)布會上,地平線機器人首次展示了基于雨果平臺的ADAS(先機輔助駕駛系統(tǒng))原型系統(tǒng)。據(jù)悉,世界某知名tier-1汽車零部件供應(yīng)商的ADAS系統(tǒng)也確定將采用地平線研發(fā)的單目感知技術(shù)。
(4)krtkl
創(chuàng)立于2015年的krtkl致力于創(chuàng)造“一個微小的無線電腦用來創(chuàng)造一些完全不同的東西”。技術(shù)人將會迷戀Snickerdoodle,一個雙核ARM處理器、FPGA、WIFI、藍牙,起價于65美元,“以最小、最難做、最實惠賦能機器人、無人機和計算機視覺等的平臺”。這個產(chǎn)品事實上是通過眾籌獲得了超過16萬美金的資金。最新的信息是說他們已經(jīng)收到了Snickerdoodle初級版本,并且很快就會出貨。這款開拓板是基于XilinxZynqSoC,集成了ARM處置器和可編程FPGA。用戶甚至可以經(jīng)過手機上的專用APP對其舉行編程,供230個用戶可用的I/O接口,應(yīng)用靈巧兼容很多擴展板卡,其特征如次:
選擇Zynq7010SoCchip,集成雙核ARMCortex-A9@667Mhz處置器和430KLUT的FPGA資源(可晉級為Zynq7020@866Mhz1.3MLUT)
這款開拓板的一大亮點是不僅支援傳統(tǒng)的MicroUSB程序燒寫,終端調(diào)試等效能,還支援手機終端操控,應(yīng)用官方供的Apps,經(jīng)過Wi-Fi連接開拓板,用戶可以下載程序,管腳把持,管腳復(fù)用以及體系把持能效能。
(5)Eyeriss
Eyeriss事實上還不是一個初創(chuàng)公司,但是因為它是由MIT開發(fā)并且獲得了大量的媒體報道,所以我們不能從這個名單中排除它。Eyeriss是一個高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件,架構(gòu)圖如下:
MIT表示,該芯片內(nèi)建168個核心,專門用來部署神經(jīng)網(wǎng)路(neuralnetwork),效能為一般行動GPU的10倍,也因其效能高,不需透過網(wǎng)路處理資料,就能在行動裝置上直接執(zhí)行人工智慧演算法。其具有辨識人臉、語言的能力,可應(yīng)用在智慧型手機、穿戴式裝置、機器人、自動駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上。
而MIT研究出的Eyeriss芯片之所以能大量提升效能,關(guān)鍵便在于最小化GPU核心和記憶體之間交換資料的頻率(此運作過程通常會消耗大量的時間與能量),且一般GPU內(nèi)的核心通常共享單一記憶體,但Eyeriss的每個核心擁有屬于自己的記憶體。
此外,Eyeriss芯片還能在將資料傳送到每一個核心之前,先進行資料壓縮,且每一個核心都能立即與鄰近的核心直接溝通,因此若需要共享資料,核心們不需要透過主要記憶體就能傳遞。
寫在最后
由于小編見解有限,文章體現(xiàn)的不會是所有的AI芯片,有哪些被遺漏了或者錯過了,請大家留言補上。
評論