<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 業(yè)界動態(tài) > 各類處理器大顯身手人工智能進駐物聯(lián)網(wǎng)終端

各類處理器大顯身手人工智能進駐物聯(lián)網(wǎng)終端

作者：時間：2017-06-19 來源：新電子

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　人工智能終端應(yīng)用的可能性無限，舉凡智能型手機、汽車、照明等，都有機會成為所謂的邊緣運算裝置。但在過去，運算處理器是在數(shù)據(jù)中心有較為明顯的需求。目前邊緣運算此一產(chǎn)業(yè)走向的大逆轉(zhuǎn)，已可從各芯片供貨商，如GPU、CPU等，以及硅智財(IP)授權(quán)商紛紛針對人工智能展開布局，推出各自處理器縮小化的解決方案，明顯可見一斑。

本文引用地址：http://www.ex-cimer.com/article/201706/360677.htm

　　隨著人工智能的發(fā)展，有越來越多應(yīng)用產(chǎn)品開始在終端上進行實時運算，也就是所謂的邊緣運算。不過，目前的處理器核心對許多終端裝置來說，功耗仍嫌偏高。

　　AIoT浪潮興起小型處理器核心滿足邊緣運算需求

　　索思未來(Socionext)戰(zhàn)略銷售組銷售部銷售項目總監(jiān)張育豪(圖1)表示，目前市場上主流的CPU或GPU核心規(guī)模很大，雖然運算效能很強，但功耗也高，而且不易針對應(yīng)用進行客制化設(shè)計。有鑒于此，Socionext采取用小型核心堆棧的設(shè)計架構(gòu)，其好處在于從云到端都可以采用同樣的處理器核心，且也較容易針對個別應(yīng)用進行客制化，例如將CPU核心跟圖像處理核心(VPU)整合在單芯片上。

　　張育豪觀察，目前的人工智能應(yīng)用大多與影像相關(guān)，但不管是CPU或GPU，在進行影像運算時，功耗/性能比都不盡理想。這是因為CPU跟GPU原本就不是為了處理影像而設(shè)計的芯片。 CPU的強項在于進行數(shù)據(jù)運算，而GPU則適合用來進行3D繪圖處理。因此，用CPU或GPU來進行影像分析，其實效率不是太好。相較之下，專門為處理影像而設(shè)計的VPU，在圖像處理的功耗/性能比方面，是遠勝過CPU跟GPU的。

　　舉例來說，用CPU來對4K影像進行處理跟分析，功耗預(yù)算大概是230瓦左右;若用GPU來進行，功耗更可達到400∼500瓦。但如果是用Socionext的解決方案，一顆核心的功耗只有5瓦左右，就算串聯(lián)多顆核心，也會比CPU或GPU來得省電許多。因此，張育豪認為，在人工智能進駐各類終端裝置的趨勢下，如果是與影像分析有關(guān)的人工智能應(yīng)用，VPU將有非常大的發(fā)展?jié)摿Α?Socionext本身擁有業(yè)界領(lǐng)先的VPU技術(shù)，更是目前市場上唯一已經(jīng)有8K圖像處理芯片的芯片業(yè)者。

　　不管是針對大規(guī)模數(shù)據(jù)中心，或是在各種終端裝置上直接進行邊緣運算，功耗都是非常關(guān)鍵的考慮。功耗越高，則系統(tǒng)的散熱設(shè)計也越昂貴，不僅會增加終端裝置的生產(chǎn)制造成本，也會增加系統(tǒng)擁有者的總體持有成本(TCO)。

　　以數(shù)據(jù)中心為例，冷卻系統(tǒng)的電費是相當可觀的，如果處理器能更省電，空調(diào)冷卻的電費也可以隨之降低。其他形形色色的終端裝置也一樣，當芯片的功耗太高時，就得采用更大的散熱片，甚至用風扇來散熱，這些都會造成產(chǎn)品的生產(chǎn)成本跟總體持有成本增加。

　　單一叢集配置更彈性 DynamIQ推升大小核效率

　　針對小型處理器需求的增加，安謀國際(ARM)日前在處理器架構(gòu)上，也宣布了大幅度調(diào)整，也就是DynamIQ技術(shù)。 DynamIQ達成了上一代big.LITTLE架構(gòu)在單一運算叢集上無法實現(xiàn)的大小核彈性配置，對異質(zhì)運算及人工智能這類應(yīng)用帶來相當明顯的效率提升。其將作為未來ARM Cortex-A系列處理器的基礎(chǔ)，亦同時代表了業(yè)界在多核處理程序設(shè)計上的新紀元。

　　ARM行動通訊暨數(shù)字家庭市場資深營銷經(jīng)理林修平(圖2)表示，DynamIQ可以說是ARM big. LITTLE的第二代硬件架構(gòu)，其最主要的特點在于其可以在同一個叢集(Cluster)中同時擺放大小核，且電源(Power)與頻率(Clock)都可以單獨作管理。在第一代的大小核架構(gòu)中，一個叢集只能擺放大核或小核，因此在執(zhí)行轉(zhuǎn)換任務(wù)時，必須經(jīng)過快取(Cache)轉(zhuǎn)換。但在DynamIQ中，由于所有任務(wù)都將能在同個叢集中運作，在任務(wù)切換上，便會相對迅速很多。

　　林修平指出，由于人工智能所需要的運算量很大，同時需要很多矩陣乘法，透過DynamIQ的架構(gòu)，將能做1+3、1+7、2+2+4等設(shè)計配置。在過去的big. LITTLE架構(gòu)中，由于一個叢集最多即是4核(大核(Big)4核，小核(LITTLE)4核)，是沒有辦法做到1+7的。 DynamIQ所帶來的多元變化SoC設(shè)計配置，將能幫助應(yīng)用達到CPU優(yōu)化，進而讓效能與功耗能更往上提升。

　　DynamIQ的頻率可以單獨管理，也將帶來很大好處。第一代的大小核，在同一個叢集當中，頻率是統(tǒng)一的，但DynamIQ可以讓同一叢集中的不同核心，依據(jù)運算需求在不同的頻率下運作。

　　此外，林修平也表示，DynamIQ還可連接外部的硬件加速器。以人工智能來說，不同應(yīng)用會有不同的軟硬件加速需求，例如加速器、DSP、CPU、GPU等，像是在高階智能型手機上，可能會放置加速器，來使其表現(xiàn)度達到最好、功耗達到最低，不過這也會增加集成電路的成本。因此，若是比較大眾化的產(chǎn)品，則可能會利用系統(tǒng)上現(xiàn)有的CPU、GPU，來滿足人工智能的需要。

　　GPU模型推論效能升級邊緣運算裝置AI能力更強大

　　然而，隨著各種邊緣運算裝置上所內(nèi)建的人工智能(AI)能力變得更加強大，GPU模型的推論效能也必須隨之提升。輝達(NVIDIA)旗下軟件目前已可協(xié)助客戶做8位與16位的神經(jīng)網(wǎng)絡(luò)運算優(yōu)化，不僅讓GPU模型的推論(Inference)更形完善，同時對硬件資源的需求也明顯降低，只需要一小塊電路板就能支持AI算法。

　　針對邊緣運算日益漸增的需求，NVIDIA近期推出了新款開發(fā)板Jetson TX2，將整套人工智能系統(tǒng)縮小在一塊電路板之上，為商用無人機、工業(yè)機械、智能型攝影設(shè)備等領(lǐng)域，提供進階的導(dǎo)航、影像與語音識別功能。相較前一代產(chǎn)品Jetson TX1，Jetson TX2的效能提升了兩倍，耗電量則不到7.5瓦，能源效率提升了兩倍多。這讓Jetson TX2可在終端裝置上運行更大、更深的神經(jīng)網(wǎng)絡(luò)，進而開發(fā)出更高智能化的裝置，并提升影像分類、導(dǎo)航以及語音識別等作業(yè)的精準度與反應(yīng)速度。

　　NVIDIA技術(shù)營銷經(jīng)理蘇家興(圖3)表示，對于訓(xùn)練好的模型，NVIDIA也提供Tense RT軟件來協(xié)助客戶做模型優(yōu)化、縮小化，其支持整數(shù)8位與浮點數(shù)16位的運算。目前的主流是以32位的運算去做訓(xùn)練，該16位運算也就減少了一半，增加了一倍的效能，8位則增加了四倍的效能，因此在模型推論上能運作的更好。

　　AI算法日新月異 FPGA靈活特性優(yōu)勢顯著

　　即便目前人工智能(AI)算法日新月異，對嵌入式處理器的靈活性帶來許多挑戰(zhàn)，這卻也讓以靈活彈性著稱的現(xiàn)場可編程門陣列(FPGA)組件有了很大的發(fā)揮空間。

　　賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖(圖4)表示，由于人工智能目前還處于發(fā)展階段，算法日新月異，目前還沒有一個算法可以固定下來，這為特殊應(yīng)用集成電路(ASIC)的設(shè)計帶來很大挑戰(zhàn)，因客戶往往需要的是十分靈活的架構(gòu)。

　　有鑒于此，賽靈思推出reVISION堆棧技術(shù)，其具備了可重組以及所有形式鏈接的特性，讓開發(fā)者能充分運用堆棧技術(shù)，快速研發(fā)與部署升級方案，這樣的特性對于開發(fā)未來需求的智能視覺系統(tǒng)是至關(guān)重要的的。不僅如此，該技術(shù)也使開發(fā)者在結(jié)合機器學習、計算機視覺、傳感器融合與連接的應(yīng)用時，能夠獲得顯著優(yōu)勢。舉例而言，相較于其他嵌入式GPU與傳統(tǒng)SoC，reVISION將機器學習推論的每秒每瓦影像效能，提升了6倍、計算機視覺每秒每瓦每幀處理速度提升了42倍，而延遲卻只有五分之一。

　　羅霖分析，相較于同等級GPU技術(shù)，F(xiàn)PGA在低延遲(Low Latency)的部分，本身就與傳統(tǒng)的架構(gòu)不同，傳統(tǒng)架構(gòu)是將收集到的數(shù)據(jù)送到DDR內(nèi)存中進行緩存，處理器要再從DDR中取出數(shù)據(jù)進行運算，運算完成后再送回DDR。但FPGA則是采用像素流(Stream)的方式，直接可以到模擬進行運算，運算完成后，輸出結(jié)果即可，由于省去了存取DDR的時間，因此可以延遲可以降到非常低。

　　從算法的層面來看，人工智能含有許多智能決策的部分，因此需要有很強的平行運算能力。這些算法進而對處理器結(jié)構(gòu)產(chǎn)生了不同的需求，像是在神經(jīng)網(wǎng)絡(luò)中，卷積運算強調(diào)的是平行運算，適合在FPGA上運行，但在傳感器融合的部分，則比較適合在CPU上運行，因其必須將硬件進行分割，再將不同的算法，放到處理器中。

　　羅霖指出，在脫機的神經(jīng)網(wǎng)絡(luò)訓(xùn)練部分，GPU的確是比較有優(yōu)勢的，由于其要求的浮點運算性能特別高，因此不少深度學習都是采用GPU，而賽靈思的立場是不會以FPGA去進攻這塊市場，不過若是以在線的任務(wù)來看，F(xiàn)PGA還是很有優(yōu)勢的。目前邊緣運算對嵌入式處理器的要求除了傳感器的接口要夠多，組件的I/O型態(tài)也十分多變，可能是高速率、中速率或低速率，這些處理器都要能支持，且在線處理的能力也相當關(guān)鍵。

　　蘇家興則表示，無論是軟件還是硬件公司，都須要對訓(xùn)練好的深度學習模型進行優(yōu)化，除了邊緣設(shè)備會采用縮小化的模型，在服務(wù)器與數(shù)據(jù)中心端，也會有某些情境需要采用這些優(yōu)化過的模型去做推論。舉例而言，F(xiàn)acebook、百度在做語音識別的推論時，若能透過優(yōu)化的模型讓運作更快，勢必能讓消耗的功耗越少。

　　不過，并不是所有的應(yīng)用都適合做前端邊緣運算。以AlphaGo來看，其是以32臺服務(wù)器在做運算，因AlphaGo運算量非常大，所以就不太可能進行邊緣運算，因1臺服務(wù)器與32臺服務(wù)器運算的精準度，絕對是有差異的。若以語音識別來看，即便可以同時采用在線與脫機的方式進行，但精準度也勢必會有落差。

　　蘇家興指出，應(yīng)用開發(fā)商須盡快分辨出哪些運算任務(wù)適合采用邊緣運算，哪些部分還是得留在服務(wù)器端執(zhí)行。舉例來說，當無人機飛到有些沒有網(wǎng)絡(luò)的地方，便必須運用邊緣運算，設(shè)計出可承載范圍內(nèi)的推論。 NVIDIA相信，未來數(shù)據(jù)中心與邊緣運算將會并存，但在瞄準的應(yīng)用上必定會有所不同。

　　用DSP驅(qū)動CNN引擎邊緣運算效率大增

　　除了GPU、CPU、FPGA，以DSP架構(gòu)驅(qū)動的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)引擎，在成本與功耗上也相當具優(yōu)勢。

　　全球DSP主要供貨商CEVA認為，若要在嵌入式系統(tǒng)中實現(xiàn)CNN，DSP甚至能取代GPU和CPU，因CNN在本質(zhì)上，就十分適合運用DSP。此外，CEVA也推出CDNN網(wǎng)絡(luò)產(chǎn)生器，協(xié)助將訓(xùn)練完成的網(wǎng)絡(luò)，配置到邊緣運算裝置中，同時為市場提供更形完善的低功耗嵌入式解決方案。

　　CEVA汽車市場部門總監(jiān)Jeff VanWashenova(圖5)表示，DSP能有效地達成CNN，是因為DSP的架構(gòu)能夠?qū)崿F(xiàn)平行處理，且其為可充分運用的核心。相較GPU只能達到40∼50%的使用率，DSP可以達到90%以上的核心使用率。

　　Jeff VanWashenova表示，

　　隨著人工智能將導(dǎo)入在手機中，

　　神經(jīng)網(wǎng)絡(luò)處理的功耗與效率，變

　　得更為重要。

　　VanWashenova進一步表示，與典型的混合式CPU/GPU的處理架構(gòu)方案相比，建基于DSP架構(gòu)的CNN引擎，能提供高達近三倍的性能。而且，DSP引擎除了所需功耗比GPU小30倍之外，所需的內(nèi)存帶寬，也只有約GPU的五分之一。 CNN算法，屬于乘法和加法密集型(Multiply-accumulate, MAC)，因此本質(zhì)上十分適合運用DSP。也就是說，若要在嵌入式系統(tǒng)中實現(xiàn)CNN，DSP不僅能夠取代GPU和CPU，而且成本和功耗更低。

　　VanWashenova指出，當神經(jīng)網(wǎng)絡(luò)配置到現(xiàn)場進行「推斷」時，CEVA擁有的優(yōu)勢便可充分發(fā)揮，這些優(yōu)勢不僅展現(xiàn)在處理方面，還在于可采用現(xiàn)有的網(wǎng)絡(luò)，并可在嵌入式DSP上運行。

　　VanWashenova分析，在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中，是在大型運算平臺上完成，并具有32位浮點精度。然而，訓(xùn)練完成的網(wǎng)絡(luò)，對于低功耗嵌入式解決方案來說通常太大，因此可運用CEVA的CDNN網(wǎng)絡(luò)產(chǎn)生器，將網(wǎng)絡(luò)轉(zhuǎn)換成16位定點，縮小并優(yōu)化網(wǎng)絡(luò)規(guī)模。

　　這也是目前CEVA客戶經(jīng)常面臨的問題，就是如何把一些在GPU這樣大型且昂貴的運算器平臺上所開發(fā)的網(wǎng)絡(luò)，進行實際配置。因為在大規(guī)模部署的產(chǎn)品中，功率、尺寸和效能都有所限制，與大型運算平臺并不相同。

　　對AI而言，要求最嚴苛的領(lǐng)先市場就是汽車產(chǎn)業(yè)。為了確保汽車應(yīng)用的可靠性和性能，必須降低延遲，而且精度是至關(guān)重要的。除此之外，汽車正在使用的攝影相機功能，從兩百萬像素(MP)到八百萬像素，幀率通常在30fps或更高。且往往是多個攝影相機一起使用，并有多個并行處理同時地進行。

　　VanWashenova指出，CEVA目前正與許多領(lǐng)先的一級汽車供貨商和原始設(shè)備制造商合作，以確保透過硬件和軟件兩方面，皆能支持神經(jīng)網(wǎng)絡(luò)和拓樸結(jié)構(gòu)。在硬件方面，CEVA提供視覺和神經(jīng)網(wǎng)絡(luò)處理器和加速器(CEVA-XM、CDNN HWA)，而軟件方面則提供神經(jīng)網(wǎng)絡(luò)軟件框架(CDNN2)。

　　人工智能這塊大餅究竟有多大，目前還無從確認，但從各大芯片供貨商在邊緣運算的充分布局看來，可以確定的是，目前邊緣裝置的開發(fā)進程，已經(jīng)有了十分穩(wěn)固的芯片處理基礎(chǔ)。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 處理器 神經(jīng)網(wǎng)絡(luò)

評論

相關(guān)推薦

嵌入式處理器選型下

視頻嵌入式 ARM 處理器 MIPS PXA27x | 2009-10-27

BP神經(jīng)網(wǎng)絡(luò)算法的改進及在Matlab中的實現(xiàn)

資源下載 The MathWorks Matlab BP神經(jīng) 神經(jīng)網(wǎng)絡(luò) | 2007-12-30

基于神經(jīng)網(wǎng)絡(luò)的配料系統(tǒng)PID控制器

資源下載 PID PID控制器神經(jīng)網(wǎng)絡(luò) 配料系統(tǒng) | 2007-12-28

基于神經(jīng)網(wǎng)絡(luò)PID控制的柔性微機器人系統(tǒng)

資源下載 PID PID控制神經(jīng)網(wǎng)絡(luò) 機器人系統(tǒng) | 2007-12-28

神經(jīng)網(wǎng)絡(luò)PID在電機調(diào)速中的應(yīng)用

資源下載 PID 神經(jīng)網(wǎng)絡(luò) 電機調(diào)速 | 2007-12-27

德州儀器推出用于OMAPTM無線處理器的新型開發(fā)套件

hpnet | 2002-06-03

嵌入式系統(tǒng)綜述之二(老站轉(zhuǎn))

amine | 2002-05-18

嵌入式系統(tǒng)硬件接口設(shè)計上

視頻嵌入式 Xscale 處理器 S3C2410 | 2009-10-27

最新智能手機芯片數(shù)據(jù)：聯(lián)發(fā)科市場份額第一，蘋果同比下降16%

智能手機高通聯(lián)發(fā)科蘋果處理器紫光展銳 | 2024-05-23

特斯拉FSD能否打破自動駕駛的默認偏見？

汽車電子 202406 特斯拉 FSD 自動駕駛 ADAS 神經(jīng)網(wǎng)絡(luò) | 2024-05-23

Nvidia 征服了最新的 AI 測試

智能計算 GPU 神經(jīng)網(wǎng)絡(luò) LLM MLPerf 基準測試英偉達 | 2024-06-26

Lisatek推出嵌入式處理器設(shè)計工具（摘自www.embed.com.cn）

xiaohua | 2002-06-17

基于GP4020的GPS接收機基帶處理器電路

設(shè)計方案基于 GP4020 接收機基帶處理器 | 2009-07-06

[轉(zhuǎn)帖]IBM可編程網(wǎng)絡(luò)處理器

amine | 2002-05-17

嵌入式系統(tǒng)硬件接口設(shè)計下

視頻嵌入式處理器 SPI EP9315 S3C2410 | 2009-10-27

高通被曝開發(fā)低成本驍龍 WoA 芯片：AI 算力 40 TOPS、2025Q4 推出

智能計算高通 WoA 處理器 | 2024-06-18

拆解：三星Galaxy Watch 7中的Exynos W1000處理器3nm GAA工藝

消費電子三星 Galaxy Watch 7 Exynos W1000 處理器 3nm GAA | 2024-07-19

英特爾承認13、14代處理器問題大將推出修補程序

消費電子英特爾處理器修補程序 | 2024-07-24

中國臺灣AI關(guān)鍵組件的發(fā)展現(xiàn)況與布局

智能計算 IC設(shè)計 PCB 散熱處理器內(nèi)存 AI | 2024-06-13

Microchip發(fā)布多核64位微處理器系列產(chǎn)品進一步擴展處理器產(chǎn)品線

嵌入式系統(tǒng) Microchip 64位微處理器處理器 | 2024-07-10

最新的ARM技術(shù)以及嵌入式發(fā)展動態(tài) 下

視頻 ARM Cortex RISC 處理器 | 2009-11-25

程控開關(guān)電源用于片心邏輯―Pentium Pro處理器

設(shè)計方案程控開關(guān)電源用于片心邏輯 Pentium 處理器 | 2009-07-06

嵌入式系統(tǒng)綜述之三(老站轉(zhuǎn))

amine | 2002-05-18

SRS效果處理器

設(shè)計方案效果處理器 | 2009-07-06

Nios II 處理器中文小冊子（altera）

資源下載 altera Nios II 處理器中文小冊子 | 2007-12-12

嵌入式處理器選型上

視頻嵌入式 ARM 處理器 CN896 MIPS | 2009-10-27

對數(shù)壓縮方式數(shù)字音頻處理器(DAC76、MN5110)

設(shè)計方案對數(shù) 壓縮方式數(shù)字音頻處理器 DAC76 MN511 | 2009-07-06

米爾基于NXP i.MX 93開發(fā)板的M33處理器應(yīng)用開發(fā)筆記

嵌入式系統(tǒng) 米爾 NXP .MX 93 M33 處理器 | 2024-07-03

英特爾先進封裝產(chǎn)能也吃緊，影響第二季AI PC處理器供應(yīng)

消費電子英特爾先進封裝 AI PC 處理器 | 2024-05-01

運放型BBE處理器

設(shè)計方案運放型處理器 | 2009-07-06

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();