沈緒榜院士談嵌入式系統(tǒng)的挑戰(zhàn)與新機遇
作者/沈緒榜 中國航天科技集團公司九院七七一研究所研究員、博士生導(dǎo)師、中國科學(xué)院院士
本文引用地址:http://www.ex-cimer.com/article/201901/397255.htm編者按: 不久前, 在第十六屆中國計算機學(xué)會(CCF) 全國嵌入式系統(tǒng)大會上, 沈緒榜院士介紹了嵌入式系統(tǒng)發(fā)展的新趨勢、 新挑戰(zhàn)和新機遇。
嵌入式系統(tǒng)發(fā)展的新趨勢
最近幾年, 物聯(lián)網(wǎng)、 信息物理系統(tǒng)CPS(Cyber-Physical System)、 VR/AR技術(shù)、 人工智能技術(shù)、 自動駕駛技術(shù)以及區(qū)塊鏈技術(shù)等新興技術(shù)的出現(xiàn)和發(fā)展, 嵌入式系統(tǒng)設(shè)計呈現(xiàn)新的發(fā)展趨勢。
針對高性能低成本低功耗的嵌入式系統(tǒng)的硬件設(shè)計,要從算法優(yōu)化、體系結(jié)構(gòu)、軟硬件協(xié)同等幾個方面統(tǒng)籌考慮。——沈緒榜
第一, 功能需求越來越多。 自動駕駛技術(shù)要求能夠針對語音、 NLP、 圖像、 視頻等數(shù)據(jù)進行處理;要求能夠支持paddle等多個深度學(xué)習(xí)框架, 靈活支持訓(xùn)練和預(yù)測; 還要求對雷達、 攝像頭等傳感器的多路數(shù)據(jù)進行快速地處理。
第二, 低功耗、 低延遲、 低成本、 高可靠性是該領(lǐng)域需求趨勢。 物聯(lián)網(wǎng)、 信息物理系統(tǒng)、 自動駕駛技術(shù)都要利用神經(jīng)網(wǎng)絡(luò)算法對其數(shù)據(jù)進行快速地的處理, 算力大、 低延時是基本要求。 由于復(fù)雜的外部環(huán)境, 可移動設(shè)備、 可穿戴設(shè)備和自動駕駛等對功耗和可靠性也有很高的要求。
第三, 嵌入式系統(tǒng)的優(yōu)化越來越依賴專用算法優(yōu)化、硬件體系結(jié)構(gòu)的優(yōu)化以及軟硬件協(xié)同的優(yōu)化。 嵌入式系統(tǒng)是硬件、 中間層、 操作系統(tǒng)和上層應(yīng)用軟件的集合體。 從專用算法、 硬件體系結(jié)構(gòu)和軟硬件協(xié)同三個角度考慮, 才能夠統(tǒng)籌全局, 有利于設(shè)計出低功耗、 低延遲、低成本、 高可靠性的嵌入式系統(tǒng)。
嵌入式系統(tǒng)面臨的新挑戰(zhàn)
第一,專用算法上,像很多新興算法,可能會因為模型復(fù)雜度太高或者其他原因,不能直接用于實現(xiàn)。比如自動駕駛領(lǐng)域的算法層面,目前還沒有一家公司可以保證自家的算法完全可以投產(chǎn)商用。
第二,系統(tǒng)架構(gòu)上,傳統(tǒng)的嵌入式系統(tǒng),處理器之間采用分布式設(shè)計,相互之間通過片外的高速通信總線等方式進行信息交換,不僅硬件設(shè)計難度較高,而且處理器軟件系統(tǒng)之間的協(xié)同性與穩(wěn)定性一直是困擾研發(fā)工程師的難題之一。
第三,算法與架構(gòu)協(xié)調(diào)上,特殊的專用算法與通用處理器架構(gòu)之間的協(xié)同不充分,既不能發(fā)揮處理器的計算能力,又不能達到該應(yīng)用領(lǐng)域的算力和功耗的要求。
第四,系統(tǒng)軟件上,對于異構(gòu)處理器,雖然OpenCL標(biāo)準(zhǔn)和“AllProgrammable”平臺都提供了統(tǒng)一的編譯環(huán)境,滿足了用軟件設(shè)計語言實現(xiàn)CPU、GPU、DSP、FPGA等的編譯要求,但不可避免地帶來了編譯器和編譯方法的復(fù)雜性、編譯效率低、存取開銷和時間開銷大等眾多軟件開發(fā)問題。
第五,網(wǎng)絡(luò)帶寬上,傳輸速度跟不上大數(shù)據(jù)云端分析的需求。根據(jù)國際電信聯(lián)盟電信標(biāo)準(zhǔn)分局(ITU-T)的研究報告,到2018年,世界上三分之一的人口將擁有智能手機或者可穿戴設(shè)備,到2020年,這些設(shè)備將生成43萬億GB的數(shù)據(jù)。而機器學(xué)習(xí)的訓(xùn)練環(huán)節(jié)目前只能在云端實現(xiàn)。GPU、FPGA、ASIC(例如GoogleTPU1.0/2.0)等都已應(yīng)用于云端訓(xùn)練環(huán)境。處理這些數(shù)據(jù)需要進一步擴展數(shù)據(jù)中心,這再次引起了人們對網(wǎng)絡(luò)流量壓力的廣泛關(guān)注。IDC也發(fā)布了相關(guān)預(yù)測,到2018年,50%的物聯(lián)網(wǎng)網(wǎng)絡(luò)將面臨網(wǎng)絡(luò)帶寬的限制。
嵌入式系統(tǒng)的新機遇
第一,專用算法的優(yōu)化上有兩類:一方面,復(fù)雜算法模型和協(xié)議不斷地被優(yōu)化,比如區(qū)塊鏈底層協(xié)議、簽名機制和共識機制的不斷優(yōu)化,吞吐率也在不斷提高,功耗逐漸降低;另一方面,針對海量數(shù)據(jù)的分析與儲存對網(wǎng)絡(luò)帶寬提出了巨大的挑戰(zhàn),邊緣計算可以利用適合數(shù)據(jù)管理任務(wù)的空閑計算資源,在邊緣節(jié)點處過濾或者分析以減少網(wǎng)絡(luò)等待時間。
第二,硬件體系結(jié)構(gòu)上有兩種類型。第一種是對于能效、功耗和散熱要求都比較高的領(lǐng)域,其數(shù)據(jù)處理單元往往經(jīng)過如下演進過程:CPU構(gòu)建初始模型,多核異構(gòu)(CPU+GPU+FPGA+DSP)處理單元搭建硬件加速引擎,定制AISC專用處理單元三個階段。比如比特幣礦機芯片、AI深度學(xué)習(xí)處理系統(tǒng)、自動駕駛處理系統(tǒng)等,對算力、功耗有極高的要求,但由于通用芯片效能顯然無法滿足功耗、散熱等問題,其體系結(jié)構(gòu)只能經(jīng)過異構(gòu)處理階段,最終已經(jīng)或者將要走向AISC硬件加速階段。第二種是對功耗要求不是那么高的領(lǐng)域,多核異構(gòu)技術(shù)確實是一種不錯的方案,可以兼有不同體系結(jié)構(gòu)各自的優(yōu)點。在云端模型訓(xùn)練中,NVIDIA的GPU占主導(dǎo)地位,多GPU并行架構(gòu)是云端訓(xùn)練常用的基礎(chǔ)架構(gòu)方案。在云端識別中,基于功耗與運算速度的考量,單獨基于GPU的方式并非最優(yōu)方案,利用CPU、GPU、FPGA、ASIC各自的優(yōu)勢,采用異構(gòu)計算(CPU+GPU+FPGA/ASIC)是目前主流方案。在高速數(shù)據(jù)采集與處理行業(yè)解決方案中,利用ARM+DSP+FPGA多核異構(gòu)技術(shù)的特點,有效地應(yīng)對了人工智能領(lǐng)域所提出的技術(shù)要求,如大規(guī)模并行數(shù)據(jù)處理。
第三,算法與硬件的協(xié)同設(shè)計上,在修改機器學(xué)習(xí)算法以使它們對硬件更友好的同時還維持準(zhǔn)確度方面,研究界在減少計算量、數(shù)據(jù)傳輸和存儲要求方面不斷地有新的進展。通過在這些方面的研究,使得硬件的處理速度更快,硬件資源更少,功耗更低。
結(jié)論
基于以上嵌入式系統(tǒng)新挑戰(zhàn)和新機遇的考慮, 針對高性能低成本低功耗的嵌入式系統(tǒng)的硬件設(shè)計, 要從算法優(yōu)化、 體系結(jié)構(gòu)、 軟硬件協(xié)同等幾個方面統(tǒng)籌考慮。這些方面統(tǒng)籌考慮為設(shè)計出更高性能、 更低功耗的嵌入式系統(tǒng)硬件提供了新思路。
本文來源于中國科技期刊《電子產(chǎn)品世界》2019年第2期第1頁,歡迎您寫論文時引用,并注明出處
評論