一種基于FPGA硬件求解函數(shù)的簡化方法
摘 要:本文研究了一種運用FPGA進行數(shù)據(jù)處理的方法,包括:提取輸入數(shù)據(jù)的高log2M個比特位的數(shù)據(jù),作為高有效位,根據(jù)預(yù)先設(shè)置的目標(biāo)函數(shù)的計算表格,查找所述高有效位對應(yīng)的目標(biāo)函數(shù)值y(n)以及高有效位+1對應(yīng)的目標(biāo)函數(shù)值y(n+1);提取輸入數(shù)據(jù)的剩余比特位數(shù)據(jù),作為低有效位,并將所述低有效位與y(n)和y(n+1)的差值相乘,得到偏移值off(n),將該偏移值與所述高有效位對應(yīng)的目標(biāo)函數(shù)值y(n)相加,將計算結(jié)果作為所述輸入數(shù)據(jù)對應(yīng)的目標(biāo)函數(shù)值。本方法具有控制簡單、結(jié)構(gòu)規(guī)則、單運算周期、計算精度較高的特點,適合于FPGA的數(shù)據(jù)處理實現(xiàn)。
本文引用地址:http://www.ex-cimer.com/article/201807/383564.htm引言
現(xiàn)場可編程門陣列(FPGA)芯片在許多領(lǐng)域均有廣泛的應(yīng)用,尤其是在無線通信領(lǐng)域。FPGA具有極強的實時性和并行處理能力,這使其對信號進行實時處理成為可能。FPGA內(nèi)部一般都包含邏輯單元(查找表/觸發(fā)器)、存儲單元(BRAM)、乘加單元(MAC)和一些其他的時鐘、引腳單元等[1-3]。
現(xiàn)代數(shù)字信號處理的主要發(fā)展趨勢是:算法結(jié)構(gòu)日趨復(fù)雜,計算量大,實時性要求高,并且包含大量的三角函數(shù)、開方、對數(shù)等復(fù)雜函數(shù)的計算。但FPGA內(nèi)部的乘加單元并不適合直接進行此類函數(shù)的計算,需要把各種復(fù)雜函數(shù)分解為簡單的移位、加法和乘法結(jié)構(gòu),進而在FPGA中實現(xiàn)[4]。
當(dāng)前,在FPGA上實現(xiàn)三角函數(shù)、開方、對數(shù)等復(fù)雜函數(shù)的計算,技術(shù)領(lǐng)域最常見的是除法,其次為開方和三角函數(shù),很少涉及對數(shù)和其他復(fù)雜一些的函數(shù)。而在FPGA具體的實現(xiàn)上,此類函數(shù)一般采用直接查表法或冪級數(shù)展開法,對于三角函數(shù)和開方的計算,也會采用CORDIC的計算方法,但這三種方法的應(yīng)用都有一定的局限性[4]。
1 現(xiàn)有的FPGA實現(xiàn)方法
(1)在FPGA上采用直接查表方法,來實現(xiàn)函數(shù)的計算,具有:
優(yōu)點——通用性強、結(jié)構(gòu)簡單;
缺點——隨著輸入位寬的增加,內(nèi)部存儲量的消耗呈指數(shù)性增長。
表1給出了不同輸入輸出位寬所需要的存儲單元(BRAM)。
表1 不同輸入輸出位寬所需要的存儲單元
可以看出,輸入輸出位寬較小時,直接查表法可以滿足實現(xiàn)要求,但在數(shù)字信號處理領(lǐng)域,輸入輸出一般都在16bits以上,這時采用直接查表法就很難滿足實現(xiàn)需求。
這里以開方算法為例進行說明。采用直接查表法進行開方計算有2種方式。
方式一:在完全保證精度的條件下,采用直接查表法。若開方為16bits輸入16bits輸出,在完全保證精度的條件下,F(xiàn)PGA就需要存儲216深度的數(shù)據(jù),需要64塊18k BRAM的存儲空間。而一片中等FPGA一般包含幾十塊到幾百塊的18k BRAM存儲單元,此時計算就要用掉大部分的存儲單元,顯然不滿足實現(xiàn)的資源需求。
方式二:降低精度,減少輸入位寬,采用直接查表法。
表2 直接查表法開方誤差表
可以看出,隨著實際有效輸入的增加,計算精度變大,很難滿足計算的誤差要求。
(2)在FPGA上采用冪級數(shù)展開法計算函數(shù)。
優(yōu)點——計算精度可控,多級展開可以達到較高的計算精度;
缺點——冪級數(shù)展開法為了達到較高的精度,需要多級展開,這樣就需要采用較多的資源來實現(xiàn)。
以exp為例(0~π/4范圍內(nèi)),采用三角函數(shù)冪級數(shù)展開法:
若輸入為16bits,采用冪級數(shù)展開法的計算框圖如圖1。
從資源方面考慮,三角函數(shù)冪級數(shù)展開法在FPGA中的實現(xiàn)需要5級乘法和3級加法,考慮每級乘法位寬需要擴展,實際需要FPGA的12個乘法器
(18bitsmes;18bits)資源。此外從誤差方面考慮,0~π/4范圍內(nèi),cosΦ的最大誤差為0.046%, sinΦ的最大誤差為0.35%。
圖 1 冪級數(shù)展開法實現(xiàn)exp計算
此外冪級數(shù)展開法的應(yīng)用范圍也比較有限,開方、倒數(shù)、對數(shù)、三角函數(shù)的計算可以采用冪級數(shù)展開法,但對于等較復(fù)雜的函數(shù)計算就不再適合用此方法進行計算。
(3)在FPGA上采用CORDIC法來實現(xiàn)函數(shù)的計算。
優(yōu)點:將復(fù)雜的運算分解為簡單移位、加迭代
運算,結(jié)構(gòu)規(guī)則,運算周期可以預(yù)測,比較適合于FPGA實現(xiàn);
缺點:一般使用多周期方式,單周期方式資源消耗較高,并且計算僅限于向量旋轉(zhuǎn)、開方等有限的范圍。
采用CORCIC計算三角函數(shù),16bits輸入,在多周期條件下需要500個左右的LUT/FFs,在單周期條件下,需要1000個左右的LUT/FFs。
2 本文提出的方法
本文在FPGA上采用兩級方法進行函數(shù)計算:第一級,直接利用輸入數(shù)據(jù)的高有效位確定計算結(jié)果的有效范圍;第二級,直接利用輸入數(shù)據(jù)的低有效位進行計算結(jié)果的誤差調(diào)整。本研究方法充分利用FPGA內(nèi)部的各種邏輯資源、乘加器(或乘法器)資源和BRAM資源:可以根據(jù)FPGA內(nèi)部BRAM資源的大小采用相應(yīng)深度的數(shù)據(jù)表存儲第一級數(shù)據(jù)的有效范圍;采用FPGA內(nèi)部的乘加器(或乘法器)資源進行乘加操作。此方法具有控制簡單,結(jié)構(gòu)規(guī)則,單運算周期,計算精度較高的特點,適合于FPGA的算法實現(xiàn)。
此外,采用本研究方法的兩級計算的方法,不同函數(shù)的計算實現(xiàn)方法一致,只要修改第一級計算高有效位數(shù)據(jù)表格中的數(shù)據(jù),就可以復(fù)用設(shè)計,有利于資源共享和模塊化實現(xiàn)。
圖2 FPGA兩級法進行函數(shù)的計算
同現(xiàn)有方案的比較分析:
(1)同直接查表法比較
以開方為例進行,資源和誤差的列表如表3??梢钥闯?,在資源和誤差方面,本研究方法在FPGA上實現(xiàn)函數(shù)計算優(yōu)勢明顯。此外,F(xiàn)PGA可以通過增加存儲單元和擴展輸出位寬來進一步提高計算精度。
表3 兩級計算法開方同直接查表法誤差比較表
(2)同冪級數(shù)展開法的比較
首先,本問題出的新方法比冪級數(shù)展開法的應(yīng)用范圍更廣泛。其次,在同樣的函數(shù)下,以exp的計算為例,本文提出的新方法資源更好,誤差更小。在資源方面,F(xiàn)PGA上采用的兩級計算方法, 同時計算只需要2個乘法器即可,遠遠少于冪級數(shù)展開法的資源消耗;在誤差方面,0~π/4范圍內(nèi),16bits輸入,cosΦ和sinΦ的最大誤差都小于10-5,因此此方法誤差比冪級數(shù)展開法誤差要小。
(3)同CORDIC方法比較
首先,本文提出的新方法比冪級數(shù)展開法的應(yīng)用范圍更廣泛。其次,在同樣的函數(shù)下,以exp的計算為例,新方法資源消耗相對較少,cosΦ和sinΦ同時計算只需要300個左右的LUT/FFs即可。而且,新方法采用的是單運算周期模式,運算速度更高。
3 實現(xiàn)流程
如圖3所示,本論文采取的實現(xiàn)方法如下:
步驟一:根據(jù)一維函數(shù)的計算,預(yù)先生成一定深度的計算表格;
步驟二:移位(可選),把數(shù)據(jù)的高有效位移位成1,增加較小數(shù)據(jù)的計算精度;
步驟三:提取數(shù)據(jù)的高bits,作為第一級數(shù)據(jù)表的地址,得到數(shù)據(jù)值y(n);
步驟四:提取數(shù)據(jù)的高bits,加1后作為第一級數(shù)據(jù)表的地址,得到下一個數(shù)據(jù)值y(n+1);
步驟五:計算差值diff(n)=y(n+1)-y(n);
步驟六:提取數(shù)據(jù)的低bits,作為有效的偏移數(shù)據(jù),同計算的差值相乘,得到偏移off(n)=data_lsb(n)*diff(n);
步驟七:高位查表數(shù)據(jù)值y(n)同偏移相加得到計算值out=y(n)+off(n);
步驟八:根據(jù)步驟一的移位逆操作(可選),得到實際輸出值。
圖3 FPGA兩級法求解函數(shù)的流程框圖
如圖4所示,對本研究方法進行進一步的詳細說明。
對于任意一個一維函數(shù),若采樣點足夠密集,那么任何2個采樣點之間可以看作是線性關(guān)系,可以通過插值的方法來計算。
圖4 FPGA兩級法求解函數(shù)的詳細說明
由圖6可得出,兩極法的誤差范圍更小。
4 結(jié)論
在現(xiàn)代數(shù)字信號處理方面,F(xiàn)PGA具有極強的實時性和并行處理能力[5]。在FPGA的實現(xiàn)上,本文介紹了現(xiàn)有的直接查表法、冪級數(shù)展開法、CORDIC計算方法的優(yōu)缺點。在此基礎(chǔ)上,本文研究了基于FPGA的兩極計算法,并把它和以上三種方法進行比較,得出兩極算法具有控制簡單、結(jié)構(gòu)規(guī)則、單運算周期、計算精度較高的特點。此外,本文詳細介紹了兩極算法的實現(xiàn)流程,并舉例來進行說明,使讀者能夠更好地掌握兩極算法。
參考文獻
Xilinx-Virtex7 Data Sheets. 2014.11.
Xilinx-Virtex7 User Guides. 2014.11.
Altera-StraTIx V Device Datasheet. 2015.7.
貝耶爾.數(shù)字信號處理的FPGA實現(xiàn)(第3版)[M].2011.
John G.Proakis,Dimitris G.Manolakis.數(shù)字信號處理DD原理、算法與應(yīng)用(第四版)[M].
評論