支持嵌入式視覺神經(jīng)網(wǎng)絡的數(shù)字信號處理器(DSP)
本文引用地址:http://www.ex-cimer.com/article/201706/360264.htm
Cadence IP事業(yè)部Tensilica Vision DSP產(chǎn)品系列營銷總監(jiān) Pulin Desai
在手機、安防監(jiān)控、汽車、增強現(xiàn)實/虛擬現(xiàn)實(AR/VR)領域,無論正在開發(fā)的還是計劃中的各類嵌入式應用都涉及到了神經(jīng)網(wǎng)絡,神經(jīng)網(wǎng)絡應用正在呈爆炸式增長。神經(jīng)網(wǎng)絡領域創(chuàng)新力非凡,其自身架構(gòu)不斷更新?lián)Q代,新網(wǎng)絡、新應用和市場也層出不窮。隨著神經(jīng)網(wǎng)絡應用的日益深入和復雜,對計算性能的要求也與日俱增。短短不到4年的時間里,MAC/幀的計算需求大約增長了16倍(見圖1)。
圖1 MAC/幀的計算需求的增長
隨著神經(jīng)網(wǎng)絡的發(fā)展,在設備中嵌入處理器(而非使用CPU和GPU)的需求不斷增加。然而,網(wǎng)絡的處理能力和運行速度并沒有跟上神經(jīng)網(wǎng)絡應用的發(fā)展要求,這一沖突在視覺應用領域尤為明顯。截至目前,滿足神經(jīng)網(wǎng)絡應用需求只能借助傳統(tǒng)數(shù)據(jù)中心的資源。然而,隨著安全性和延遲成為重要的考慮因素,通過嵌入式系統(tǒng)實現(xiàn)神經(jīng)網(wǎng)絡愈發(fā)普遍,以實現(xiàn)實時數(shù)據(jù)處理。雖然大部分的神經(jīng)網(wǎng)絡訓練可以在線下實現(xiàn),但使用神經(jīng)網(wǎng)絡的應用必須將其嵌入至系統(tǒng)中。
所有嵌入式應用中,AR/VR或混合現(xiàn)實面臨著獨有的挑戰(zhàn)。上述領域的設備大多屬于智能頭盔、耳機或智能眼鏡等可穿戴設備,依靠電池供電,能耗時選擇神經(jīng)網(wǎng)絡解決方案時最重要的考量之一。AR/VR應用的另一個重要需求是減小延遲,所以神經(jīng)網(wǎng)絡必須實現(xiàn)設備嵌入。所有這些設備都需要某種圖像識別、手勢識別、立體攝像分割、3D傳感、頭部跟蹤、眼球偵測和眼球跟蹤能力?,F(xiàn)在的成像技術多種多樣,但隨著時間的推移,其中某些功能,如語義環(huán)境理解、手勢識別或圖像識別,將都可以通過神經(jīng)網(wǎng)絡實現(xiàn)。除了成像/視覺神經(jīng)網(wǎng)絡,這些設備還對聲音/音頻神經(jīng)網(wǎng)絡提出了要求,以接收語音指令。
在技術環(huán)境瞬息萬變的今天,AR/VR設備制造商需要現(xiàn)在立即為2019年、2020年甚至更晚上市的產(chǎn)品選定平臺。引入新的神經(jīng)網(wǎng)絡后,由于其架構(gòu)不斷變化,我們無法確保當前有效的工作平臺在未來系統(tǒng)中的有效性。此外,這些應用還要求實現(xiàn)低延遲和低功耗,這一點也尤為重要;但鑒于神經(jīng)網(wǎng)絡需求的不斷增長和這一趨勢的不斷進展,我們?nèi)孕璞WC一定的靈活度和前瞻性。
目前,實現(xiàn)神經(jīng)網(wǎng)絡有兩個主要選擇:CPU/GPU或使用硬件加速器及匹配的成像DSP。這兩個選擇都可以各自解決設計人員面臨的一些挑戰(zhàn);但又都在開發(fā)的簡易程度、功耗效率、延遲、未來升級空間或性能方面有一些令人不滿意的折衷。硬件加速器與匹配的成像DSP是嵌入式設備的選擇之一,但這一組合效率低下,會產(chǎn)生不必要的功耗。除了開發(fā)困難,軟件還必須在DSP和加速器之間進行分區(qū)。僅卸載卷積層會顯著增加數(shù)據(jù)傳送負擔,并影響效率。另外,硬件在流片時便已固定,所以這些加速器將不具備未來的升級空間。
符合嵌入式應用需要的神經(jīng)網(wǎng)絡DSP解決方案要滿足以下要求:易于開發(fā)、能夠處理龐大的數(shù)據(jù)量、未來具有升級空間、有效地使用能源并實現(xiàn)延遲最小化。
Cadence解決方案:Tensilica Vision C5數(shù)字信號處理器(DSP)
作為面向視覺和融合傳感器應用優(yōu)化的解決方案,Cadence Tensilica Vision C5 DSP是業(yè)界首款致力于神經(jīng)網(wǎng)絡處理并適用于多處理器架構(gòu)的DSP。這一解決方案實現(xiàn)了前所未有的速度和低功耗,并滿足高階神經(jīng)網(wǎng)絡技術的全部要求。
該解決方案以近20年的Xtensa多處理器經(jīng)驗為基礎,具有存儲器結(jié)構(gòu)共享、允許中斷、同步隊列和同步多處理器調(diào)試等特性。Vision C5 DSP可以實現(xiàn)全神經(jīng)網(wǎng)絡層的計算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層功能。因此,主視覺處理DSP的能力得以釋放,獨立運行圖像增強應用程序;而Vision C5 DSP則運行推理任務。通過移除硬件加速器的冗余數(shù)據(jù)傳輸,Vision C5 DSP的功耗遠低于現(xiàn)有的神經(jīng)網(wǎng)絡加速器。
Vision C5 DSP具備1TMAC /秒的計算能力,可以滿足神經(jīng)網(wǎng)絡不斷增長的計算要求;并且計算精確,擁有多核心設計架構(gòu),支持多TMAC嵌入式解決方案。Vision C5 DSP針對的是經(jīng)常運行多個神經(jīng)網(wǎng)絡的應用。由于其可編程特性,該解決方案具有未來升級空間,并且能夠隨著設計的改變而支持新分層。
視覺處理系統(tǒng)必須設計全面,適用于所有平臺,并同步開發(fā)硬件和軟件。為了開發(fā)這項技術,設計人員必須使用支持高效算法的工具和IP,采用的硬件平臺也需滿足每個應用程序的目標成本和功耗要求。從系統(tǒng)層面來看,Cadence可以支持嵌入式視覺設備的設計人員盡可能最快速的高效地開發(fā)變革性產(chǎn)品。
評論