掌控人工智能的力量:使用萊迪思sensAI快速上手
在萊迪思FPGA中構(gòu)建推理引擎
本文引用地址:http://www.ex-cimer.com/article/201902/397747.htm設(shè)計(jì)AI推理模型的硬件需要不斷平衡所需資源數(shù)量與性能和功率要求。萊迪思的ECP5和UltraPlus產(chǎn)品系列能輕松實(shí)現(xiàn)這種平衡。
ECP5系列擁有三種不同規(guī)格的器件,能夠運(yùn)行一到八個(gè)推理引擎。它們集成的本地存儲(chǔ)器從1 Mb到3.7 Mb不等。功耗最高僅為1 W,尺寸也只有100 mm2。
相比之下,UltraPlus系列的功耗水平低至ECP5系列的千分之一,僅為1 mW。占用的電路板面積僅為5.5mm2,包括了最多8個(gè)乘法器和最多1 Mb的本地存儲(chǔ)器。
萊迪思還提供可在這些器件上高效運(yùn)行的CNN IP以及可用于ECP5系列的CNN加速器。
圖4 適用于ECP5系列的CNN加速器
萊迪思還提供可用于UltraPlus系列的輕量化CNN加速器。
圖5 適用于UltraPlus系列的輕量化CNN加速器
這里暫且不談細(xì)節(jié);重點(diǎn)在于您無須從頭開始設(shè)計(jì)自己的AI引擎。您可以聯(lián)系萊迪思獲取關(guān)于這些IP的更多信息。
最后,您還可以在開發(fā)模塊上運(yùn)行并測(cè)試這些演示,兩個(gè)模塊分別對(duì)應(yīng)這兩種產(chǎn)品系列。Himax HM01B0 UPduino Shield采用了一片UltraPlus FPGA, 尺寸為22x50 mm2。嵌入式視覺開發(fā)套件采用了一片ECP5 FPGA,尺寸為80x80 mm2。
Himax HM01B0 UPduino Shield 嵌入式視覺開發(fā)套件
圖6 評(píng)估AI應(yīng)用的開發(fā)模塊
有了FPGA、軟IP和其他處理數(shù)據(jù)所需的硬件部分,就可以使用Lattice Diamond設(shè)計(jì)工具進(jìn)行編譯,從而生成位流,在每次上電后對(duì)目標(biāo)設(shè)備中的FPGA進(jìn)行配置。
在萊迪思FPGA上構(gòu)建推理模型
創(chuàng)建推理模型與創(chuàng)建底層運(yùn)行平臺(tái)大不相同。它更抽象,涉及更多運(yùn)算,且不涉及RTL設(shè)計(jì)。這一過程主要有兩個(gè)步驟:創(chuàng)建抽象模型,然后根據(jù)所選平臺(tái)優(yōu)化模型的實(shí)現(xiàn)。
模型訓(xùn)練在專門為此過程設(shè)計(jì)的框架中進(jìn)行。最流行的兩個(gè)框架是Caffe和TensorFlow,但不限于此。
CNN由很多層構(gòu)成——卷積層,可能還會(huì)有池化層和全連接層——每一層都有由前一層的結(jié)果饋送的節(jié)點(diǎn)。每個(gè)結(jié)果都在每個(gè)節(jié)點(diǎn)處加權(quán)重,權(quán)重多少則由訓(xùn)練過程決定。
訓(xùn)練框架輸出的權(quán)重通常是浮點(diǎn)數(shù)。這是權(quán)重最為精確的體現(xiàn),然而大多數(shù)網(wǎng)絡(luò)邊緣設(shè)備不具備浮點(diǎn)運(yùn)算功能。這時(shí)我們需要針對(duì)特定平臺(tái)對(duì)這個(gè)抽象模型進(jìn)行優(yōu)化,這項(xiàng)工作由萊迪思的神經(jīng)網(wǎng)絡(luò)編譯器負(fù)責(zé)。
編譯器可以實(shí)現(xiàn)加載和查看從某個(gè)CNN框架下載的原始模型。您可以運(yùn)行性能分析,這對(duì)模型優(yōu)化最關(guān)鍵的方面——量化至關(guān)重要。
由于無法處理浮點(diǎn)數(shù),因此需要將它們轉(zhuǎn)換為整數(shù)。對(duì)浮點(diǎn)數(shù)四舍五入也就意味著精度會(huì)降低。問題是, 什么樣的整數(shù)精度才能滿足您想要的精度?通常使用的最高精度為16位,但是權(quán)重和輸入可以表示為較小的整數(shù)。萊迪思目前支持16、8和1位的設(shè)計(jì)實(shí)現(xiàn)。
1位的設(shè)計(jì)實(shí)際是在一位整數(shù)域中進(jìn)行訓(xùn)練以保持精度。顯然,更小的數(shù)據(jù)單元意味著性能更高、硬件尺寸更小以及功耗更低。但是,精度太低就無法準(zhǔn)確地推斷視野中的物體。
圖7 可以對(duì)單個(gè)模型進(jìn)行優(yōu)化以適用于不同的設(shè)備
神經(jīng)網(wǎng)絡(luò)編譯器能讓您創(chuàng)建代表模型的指令流,然后可以模擬或直接測(cè)試這些指令,從而判斷在性能、功耗和精度之間是否達(dá)到了適度的平衡。測(cè)試的標(biāo)準(zhǔn)通常是看一組測(cè)試圖像(與訓(xùn)練圖像不同)中正確處理的圖像的百分比。
通??梢酝ㄟ^優(yōu)化模型來優(yōu)化運(yùn)行,包括去掉一些節(jié)點(diǎn)以減少資源消耗,然后重新訓(xùn)練模型。這一設(shè)計(jì)環(huán)節(jié)可以微調(diào)精度,同時(shí)保證能在有限的資源下順利運(yùn)行。
兩個(gè)檢測(cè)實(shí)例
在以下兩個(gè)不同的視覺案例中,我們將看到權(quán)衡是如何發(fā)揮作用的。第一個(gè)應(yīng)用是人臉檢測(cè);第二個(gè)是人員偵測(cè)。我們將看到不同F(xiàn)PGA之間存在的資源差異如何影響到相對(duì)應(yīng)的應(yīng)用的性能和功耗。
兩個(gè)示例的輸入都源自同一個(gè)攝像頭,兩者都在相同的底層引擎架構(gòu)中運(yùn)行。在UltraPlus設(shè)計(jì)實(shí)例中,圖像的尺寸縮小后通過8個(gè)乘法器進(jìn)行處理,利用了內(nèi)部存儲(chǔ)器并使用了LED指示燈。
圖8 UltraPlus平臺(tái)用于人臉檢測(cè)和人員偵測(cè)應(yīng)用
ECP5系列資源更多,提供了一個(gè)計(jì)算能力更強(qiáng)的平臺(tái)。攝像頭捕捉的圖像在發(fā)送到CNN之前在圖像信號(hào)處理器(ISP)中進(jìn)行預(yù)處理。處理結(jié)果與原始圖像在標(biāo)記引擎上比對(duì),從而將文本或注釋覆蓋在原始圖像上。
圖9 ECP5平臺(tái)用于人臉檢測(cè)和人員偵測(cè)應(yīng)用
我們可以使用一系列圖表來衡量?jī)煞N應(yīng)用的性能、功耗和占用面積情況。對(duì)于每個(gè)應(yīng)用,我們做了兩組示例:一組輸入較少,一組輸入較多。
圖7表示了人臉檢測(cè)應(yīng)用的結(jié)果。兩組分別采用了32x32輸入和90x90輸入的情況。
圖10 在UltraPlus和ECP5 FPGA上實(shí)現(xiàn)簡(jiǎn)單和復(fù)雜的人臉檢測(cè)應(yīng)用時(shí)的性能、功耗和占用面積
左側(cè)的軸代表處理一張圖片需要的周期數(shù)量以及這些周期的分配情況。右側(cè)的軸代表在各器件(綠線)上實(shí)現(xiàn)的每秒幀數(shù)(fps)。最后,每種情況下還標(biāo)注了功耗和占用面積。
左側(cè)的32x32輸入示例中,橙色部分代表卷積層上運(yùn)行的周期。在四個(gè)示例中,UltraPlus的乘法器數(shù)量最少;其他三片ECP5 FPGA的乘法器數(shù)量依次遞增。隨著乘法器數(shù)量的增加,卷積層所需的周期數(shù)減少。
90x90輸入的示例位于右側(cè),得到的結(jié)果完全不同。在每個(gè)柱形圖的底部有大面積的藍(lán)色區(qū)域。這是由于設(shè)計(jì)更為復(fù)雜,使用了除器件內(nèi)部存儲(chǔ)空間以外的更多存儲(chǔ)器。由于需要占用外部DRAM,性能就有所損失。需要注意的是,這種設(shè)計(jì)無法使用較小的UltraPlus器件。
人員偵測(cè)應(yīng)用的情況類似。兩組分別采用了64x64輸入和128x128輸入的情況。
圖11 在UltraPlus和ECP5 FPGA上實(shí)現(xiàn)簡(jiǎn)單和復(fù)雜的人臉檢測(cè)應(yīng)用時(shí)的性能、功耗和占用面積
同樣,較多的乘法器會(huì)減少卷積層的負(fù)擔(dān),而依賴DRAM則會(huì)影響性能。
圖9總結(jié)了各類情形下的性能。它包括了對(duì)圖像中最小可識(shí)別對(duì)象或特征的度量,用視野范圍的百分比表示。在這里使用更多輸入能夠?yàn)檩^小的目標(biāo)提供更多分辨率。
圖12 兩個(gè)應(yīng)用示例在四片F(xiàn)PGA上的性能總結(jié)
小結(jié)
總之,使用萊迪思sensAI產(chǎn)品提供的資源,您就可以在萊迪思FPGA上輕松實(shí)現(xiàn)要求低功耗、具有靈活性和可擴(kuò)展性的網(wǎng)絡(luò)邊緣AI推理設(shè)計(jì)。它可以提供成功部署AI算法所需的關(guān)鍵要素:
? 神經(jīng)網(wǎng)絡(luò)編譯器
? 神經(jīng)引擎軟IP
? Diamond設(shè)計(jì)軟件
? 開發(fā)板
? 參考設(shè)計(jì)
評(píng)論