<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > EdgeBoard中“活靈活現(xiàn)”的算子

EdgeBoard中“活靈活現(xiàn)”的算子

作者：時間：2019-12-30 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

背景介紹

本文引用地址：http://www.ex-cimer.com/article/201912/408763.htm

數(shù)據(jù)、算法和算力是人工智能技術(shù)的三大要素。其中，算力體現(xiàn)著人工智能(AI)技術(shù)具體實(shí)現(xiàn)的能力，實(shí)現(xiàn)載體主要有CPU、GPU、FPGA和ASIC四類器件。CPU基于馮諾依曼架構(gòu)，雖然靈活，卻延遲很大，在推理和訓(xùn)練過程中主要完成其擅長的控制和調(diào)度類任務(wù)。GPU以犧牲靈活性為代價來提高計算吞吐量，但其成本高、功耗大，尤其對于推理環(huán)節(jié)，并行度的優(yōu)勢并不能完全發(fā)揮。專用ASIC芯片開發(fā)周期長，資金投入大，由于其結(jié)構(gòu)固化無法適應(yīng)目前快速演進(jìn)的AI算法。FPGA因其高性能、低功耗、低延遲、靈活可重配的特性，被廣泛地用作AI加速，開發(fā)者無需更換芯片，即可實(shí)現(xiàn)優(yōu)化最新的AI算法，為產(chǎn)品贏得寶貴的時間。

由此，百度基于FPGA打造了EdgeBoard嵌入式AI解決方案，能夠提供強(qiáng)大的算力，支持定制化模型，適配各種不同的場景，并大幅提高設(shè)備端的AI推理能力，具有高性能、高通用、易集成等特點(diǎn)。本文將主要介紹EdgeBoard中神經(jīng)網(wǎng)絡(luò)算子在FPGA中的實(shí)現(xiàn)。

FPGA加速的關(guān)鍵因素

FPGA實(shí)現(xiàn)AI加速有兩大關(guān)鍵因素，一是FPGA內(nèi)部資源，二是內(nèi)存訪問帶寬。FPGA內(nèi)部資源主要包括LUT，F(xiàn)F，RAM以及DSP等，F(xiàn)PGA本質(zhì)上是可編程邏輯電路，可用邏輯電路的多少取決于芯片內(nèi)部資源，這也就決定了芯片的峰值算力和可容納的算子種類數(shù)。

在深度學(xué)習(xí)中，90%以上的計算都集中在conv、dw-conv和pooling等少數(shù)的幾個算子上。所以，并不是FPGA中添加的加速算子數(shù)量越多越好，而是要注重算子的加速質(zhì)量：一是用更少的資源實(shí)現(xiàn)更多的功能；二是提高耗時占比大的算子性能。

在實(shí)踐中，添加新算子前需要平衡該算子在網(wǎng)絡(luò)中所耗時間的占比以及其在FPGA中所消耗的資源。當(dāng)然可以通過選取更大規(guī)模的片子來突破這種限制，但是端上設(shè)備受限于成本、功耗等因素，只能平衡多種因素選擇一個合適規(guī)模的芯片，然后通過多種設(shè)計方法和技巧來提高加速性能。本文接下來就將介紹在EdgeBoard中如何優(yōu)化設(shè)計DSP資源提升算力，以及如何通過算子復(fù)用和融合技術(shù)實(shí)現(xiàn)對多算子的支持。

提升內(nèi)存訪問帶寬是提高AI加速性能的另一關(guān)鍵因素，因?yàn)镕PGA與內(nèi)存的數(shù)據(jù)交互在整個計算過程中占比很高，有時甚至超過了計算本身所消耗的時間。直接提高內(nèi)存訪問帶寬的方法包括提高DDR位寬、增加傳輸所用的高速接口資源、提高DMA傳輸?shù)臅r鐘頻率等。另外也可以通過復(fù)用FPGA芯片上的內(nèi)存資源（RAM）以及計算和傳輸交疊執(zhí)行(overlap)等方法，減少與外部DDR存儲的交互，降低數(shù)據(jù)傳輸?shù)拈_銷。這些設(shè)計方法較為常見，本文不做詳細(xì)介紹。

兩大關(guān)鍵技術(shù)實(shí)現(xiàn)四倍算力提升

FPGA中的計算主要依靠DSP實(shí)現(xiàn)，高效使用DSP是保證FPGA算力的關(guān)鍵。EdgeBoard FPGA中的DSP采用DSP48E2架構(gòu)，如圖1所示，包括一個27-bit的預(yù)加法器（pre-adder），一個27x18的乘法器（mult）和一個48-bit的ALU。

圖1. DSP48E2結(jié)構(gòu)圖

在EdgeBoard的FPGA設(shè)計中，充分利用DSP48E2本身的特點(diǎn)，采用supertile和INT8移位計算技術(shù)，實(shí)現(xiàn)了四倍算力提升。

一．Supertile

一般來講，Xilinx Ultrascale系列FPGA運(yùn)行的最高頻率在300MHz到400MHz之間，但DSP是FPGA中的硬核，可以運(yùn)行在更高的頻率上。如圖2所示，SLB-M與DSP這樣構(gòu)成的基本單元，被稱之為Supertile，F(xiàn)PGA內(nèi)部Supertile的布局如圖3所示。Supertile技術(shù)的核心在于使DSP運(yùn)行于兩倍邏輯頻率上，使整個系統(tǒng)算力達(dá)到倍增的效果。這主要得益于芯片結(jié)構(gòu)中SLICEM與DSP位置臨近，使用專有的布線資源，延遲縮短，可以支撐SLICEM以雙倍邏輯運(yùn)行的頻率向DSP提供數(shù)據(jù)。另外，神經(jīng)網(wǎng)絡(luò)中存在著數(shù)據(jù)復(fù)用，通過filter和image數(shù)據(jù)的復(fù)用和交織，一次取數(shù)多次使用，從而減少數(shù)據(jù)的搬運(yùn)次數(shù)，提升計算效率。

圖2. Supertile結(jié)構(gòu)

圖3. DSP和SLICEM在FPGA中的位置

二．INT8移位計算技術(shù)

利用DSP48E2的結(jié)構(gòu)特點(diǎn)，一個DSP完成兩路INT8的乘加。在進(jìn)行8bit數(shù)據(jù)計算時，將a左移18位，置于輸入的高8位，低19位補(bǔ)0，從DSP的A端輸入，b維持在低8位，從DSP的D端輸入，如圖4所示。a與b兩者先進(jìn)行累加，然后與c相乘后，結(jié)果將分別位于輸出的高(a*c)、低(b*c)兩部分，該計算過程如圖5所示。

圖4. DSP移位示意圖

圖5.單DSP實(shí)現(xiàn)兩路INT8相乘

在實(shí)踐中，我們把a(bǔ),b兩路作為filter數(shù)據(jù)輸入，c作為image數(shù)據(jù)輸入。這樣DSP在一個時鐘周期內(nèi)就同時完成了兩路的計算，再次使算力翻倍。結(jié)合前面提到的supertile倍頻設(shè)計，兩種設(shè)計使得單個DSP的算力提升四倍。因?yàn)橐淮斡嬎氵^程有乘、加兩個操作(operations)，所以單個DSP在一個時鐘周期高效的完成了8個operations。

多算子復(fù)用

深度學(xué)習(xí)中主要有兩類運(yùn)算，一類是指數(shù)運(yùn)算，另一類是乘加運(yùn)算。前者主要位于激活函數(shù)層，后者是深度學(xué)習(xí)涉及最多也是最基礎(chǔ)的運(yùn)算。乘加運(yùn)算根據(jù)kernel的維度不同，又可分為向量型和矩陣型，在EdgeBoard中劃分為三個運(yùn)算單元，分別為向量運(yùn)算單元(VPU: vector processing unit)、矩陣運(yùn)算單元(MPU: matrix processing unit)和指數(shù)激活運(yùn)算單元(EXP-ACT: exponential activation unit)。

一．向量運(yùn)算單元

向量運(yùn)算單元VPU負(fù)責(zé)實(shí)現(xiàn)dw-conv(depth-wise convolution)，完成3維輸入圖像（H x W x C）和3維卷積核（K1 x K2 x C）的乘加操作。其中一個卷積核負(fù)責(zé)輸入圖像的一個通道，卷積核的數(shù)量與上一層的通道數(shù)相同，該過程如圖6所示。圖7表示的是一個通道內(nèi)以kernel 2x2和stride 2為例的計算過程。

圖6. dw-conv示意圖

圖7. dw-conv的計算

EdgeBoard通過復(fù)用VPU一套計算資源實(shí)現(xiàn)了average/max pooling，elementwise add/sub，scale，batch-normalize，elementwise-mul和dropout等多種算子。

1.Average pooling可以看作是卷積核參數(shù)固定的dw-conv，即將求和后取平均（除以卷積核面積）的操作轉(zhuǎn)換成先乘以一個系數(shù)(1/卷積核面積)再求和。如圖8所示，該例子中卷積核大小為2x2，卷積核參數(shù)即為1/4。卷積核固定的參數(shù)可以類似于dw-conv下發(fā)卷積核的方式由SDK封裝后下發(fā)，也可以通過SDK配置一個參數(shù)完成，然后在FPGA中計算轉(zhuǎn)換，這樣節(jié)省卷積核參數(shù)傳輸?shù)臅r間。另外，max-pooling算子與average pooling的計算過程類似，只需要將求均值操作換成求最大值的操作，其余挖窗、存取數(shù)等過程保持不變。

圖8. Pooling復(fù)用dw-conv

2.Elementwise add/sub完成兩幅圖像對應(yīng)元素的相加或相減，不同于dw-conv的是它有兩幅輸入圖像。如果我們控制兩幅圖像的輸入順序，將兩幅圖像按行交錯拼成一幅圖像，然后取卷積核為2x1，行stride為1，列stride為2，pad均設(shè)置成0，則按照dw-conv的計算方式就完成了elementwise的計算。通過在FPGA中設(shè)置當(dāng)前像素對應(yīng)的kernel值為1或-1，就可以分別實(shí)現(xiàn)對應(yīng)elementwise add和elementwise sub兩個算子。該過程如圖9所示。

圖9. ew-add/sub復(fù)用dw-conv

3.Scale算子主要在圖像預(yù)處理時使用，將輸入圖像每一個通道的全部像素點(diǎn)乘以該通道對應(yīng)的scale值，然后加上bias。如果我們將dw-conv的卷積核大小設(shè)成1x1，行列stride都設(shè)置成1，pad設(shè)置成0，卷積核參數(shù)值設(shè)成scale，就可以通過dw-conv完成scale算子的功能。通過分析發(fā)現(xiàn)，batch-normalize，elementwise-mul和dropout等算子都可以通過scale算子來實(shí)現(xiàn)。

二．矩陣運(yùn)算單元

矩陣運(yùn)算單元MPU負(fù)責(zé)實(shí)現(xiàn)convolution，完成3維輸入圖像（H x W x C）和4維卷積核（N x K1 x K2 x C）的乘加操作，單個卷積核的通道數(shù)和輸入圖像的通道數(shù)相同，而卷積核的數(shù)量N決定了輸出的通道數(shù)，如圖10所示。full connection算子實(shí)現(xiàn)的1維輸入數(shù)組（長度C）和2維權(quán)重（N x C）的乘加操作。將 full connection輸入數(shù)組擴(kuò)展成 H x W x C,輸出擴(kuò)展成 N x K1 x K2 x C,其中H, W, K1和K2均設(shè)置成1，這樣 full connection就可以調(diào)用convolution來實(shí)現(xiàn)。另外，在計算 deconv時，通過SDK對卷積核進(jìn)行分拆、重排，就可以通過調(diào)用conv來實(shí)現(xiàn)deconv，同樣帶來了極大的收益。

圖10. Conv算子示意圖

三．指數(shù)激活運(yùn)算單元

指數(shù)激活運(yùn)算單元EXP-ACT實(shí)現(xiàn)的基礎(chǔ)是sigmoid，由于在FPGA中進(jìn)行指數(shù)型運(yùn)算比較耗資源，如何復(fù)用該計算單元就變得非常有意義。通過分析發(fā)現(xiàn)，可以把 tanh和兩通道softmax轉(zhuǎn)換成 sigmoid的形式，這樣一個指數(shù)運(yùn)算單元就支持了3種算子，實(shí)現(xiàn)資源利用的最大化。

多算子融合

在推理時做BatchNorm運(yùn)算非常耗時，通過SDK將BatchNorm+Scale的線性變換參數(shù)融合到卷積層，替換原來的weights和bias，這樣4個算子可以融合成單個算子conv + batchnorm + scale + relu，對于dw-conv同樣如此。相對于每計算完一個算子就將數(shù)據(jù)送回內(nèi)存，這種算子融合大大減少了內(nèi)存的讀寫操作，有效提高了處理幀率。

此外，我們將scale、bias和relu為代表的激活函數(shù)層放到各算子之后的鏈路上，然后統(tǒng)一送到DMA傳輸模塊，如圖11所示。這不僅使得各算子復(fù)用了這些邏輯，節(jié)省了大量片內(nèi)資源，也使得各算子都可以具備這些功能，且都能以最大帶寬進(jìn)行DMA傳輸。在實(shí)踐中，我們將這些功能做成可選項(xiàng)，由軟件根據(jù)當(dāng)前網(wǎng)絡(luò)算子的需要進(jìn)行選擇，在節(jié)省資源的同時，既保證了通用性，又兼顧了靈活性。

圖11. EdgeBoard內(nèi)部結(jié)構(gòu)和鏈路圖

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： FPGA AI

評論

相關(guān)推薦

Altera公司cyclone系列FPGA-1C6電路圖

設(shè)計方案 Altera 公司 cyclone 系列 FPGA-1C6 | 2009-07-17

用C/C++語言開發(fā)大規(guī)模FPGA [轉(zhuǎn)載于www.fpga.com.cn]

xiaohua | 2002-09-24

HBM4持續(xù)加速：AI時代競爭新焦點(diǎn)

網(wǎng)絡(luò)與存儲 HBM AI 內(nèi)存 | 2024-07-25

將ASIC IP核移植到FPGA上——明了需求和詳細(xì)規(guī)劃以完成充滿挑戰(zhàn)的任務(wù)

嵌入式系統(tǒng) FPGA SmartDV | 2024-07-29

3-DES算法的FPGA高速實(shí)現(xiàn)(Xilinx)

資源下載 Xilinx FPGA 3-DES算法 | 2007-12-13

AI 芯片：一場燒錢的瘋狂競賽

智能計算 AI 芯片 | 2024-07-24

s3c2410+fpga 做視頻無線傳輸

herbertwj | 2004-08-15

Altera的FPGA下載常見問題經(jīng)驗(yàn)小結(jié)

資源下載 Altera FPGA 常見問題經(jīng)驗(yàn) | 2007-12-13

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

基于SD7502構(gòu)成的FPGA-ASK電路圖

設(shè)計方案基于 SD7502 構(gòu)成 FPGA-ASK 電路圖 | 2011-07-13

視頻協(xié)議板-FPGA配置基于LatticeECP3的設(shè)計

設(shè)計方案視頻協(xié)議 -FPGA 配置基于 LatticeECP3 | 2014-05-20

FPGA如何同DDR3存儲器進(jìn)行接口?

視頻 Altera FPGA DDR3 | 2008-06-18

LabVIEW FPGA 模塊簡介

視頻 NI LabVIEW FPGA | 2009-04-01

Meta發(fā)布“前沿級”開源AI模型扎克伯格：不怕競爭者使用

智能計算 Meta 開源 AI 模型扎克伯格 | 2024-07-24

LabVIEW 8.20技術(shù)資料大全簡介

資源下載 NI LabVIEW 射頻和通信 FPGA | 2007-12-11

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

高速ADC與內(nèi)置嵌入式串行收發(fā)器的FPGA接口

視頻 Altera FPGA ADC Linear 串行收發(fā)器 | 2009-05-19

消息稱 OpenAI 公司 2024 年資金缺口達(dá)到 50 億美元

智能計算 OpenAI ChatGPT AI | 2024-07-25

ALTERA的PCI_IP Core問答集

資源下載 Altera FPGA PCI_IP Core | 2007-12-13

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達(dá) GPU | 2024-07-26

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

Altera: 采用全系列40-nm收發(fā)器FPGA和ASIC實(shí)現(xiàn)創(chuàng)新

視頻 Altera FPGA ASIC | 2009-07-13

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運(yùn)會體育 | 2024-07-26

實(shí)時的噪聲源定位系統(tǒng)

視頻 NI LabVIEW FPGA | 2009-03-25

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

LatticeECP3設(shè)計的視頻協(xié)議板電路圖-FPGA配置

設(shè)計方案 LatticeECP3 設(shè)計視頻協(xié)議電路圖 -FPGA | 2011-06-27

基于FPGA的可編程數(shù)字濾波器系統(tǒng)

資源下載 Max FPGA 可編程數(shù)字濾波器 | 2007-12-14

AI當(dāng)靠山軟件大廠SAP裁員擴(kuò)大至上萬

智能計算 AI 軟件 SAP 裁員 | 2024-07-24

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();