高速流水線浮點加法器的FPGA實現
3.2浮點加法運算的實現
浮點加法運算可總結為比較、移位、相加、規(guī)范化等四個步驟,分別對應于compare、shift、sum、normalize四個模塊。
(1)compare模塊
本模塊主要完成兩輸入浮點數的比較,若din_a、din_b為兩個輸入單精度浮點數,則在一個時鐘周期內完成的運算結果如下:
◇大數指數b_exp這里的大數指絕對值的比較;
◇兩浮點數的指數差sube,正數;
◇大數尾數b_ma;
◇小數尾數s_ma,該尾數已加入隱含1;
◇和符號c_sgn,為確定輸出結果的符號;
◇加減選擇add_sub,兩輸入同符號時為0(相加)、異符號時為1(相減),sum模塊中使用實現加減選擇。
(2)shift模塊
shift模塊的作用主要是根據兩個輸入浮點數的指數差來執(zhí)行小數尾數(已加入隱含1)向右移動相應的位數,以將輸入的兩個浮點數指數調整為相同的數(同大數),若b_exp、sube、b_ma、s_ma、c_sgn、add_sub為輸入信號(其含義見compare模塊),則可輸出如下運算結果(在一個時鐘周期內完成):
◇大數指數(sft_bexp),將b_exp信號用寄存器延遲一個周期,以實現時序同步;
◇小數尾數(sft_sma),已完成向右移動相應的sube位;
◇大數尾數(sft_bma),將b_ma信號用寄存器延遲一個周期,以實現時序同步;
◇和符號(sft_csgn),將c_sgn信號用寄存器延遲一個周期,以實現時序同步;
◇加減選擇(sft_addsub),將add_sub信號用寄存器延遲一個周期,以實現時序同步;
(3)sum模塊
本模塊可根據加減選擇(sft_addsub(信號完成兩輸入浮點數尾數(已加入隱含1)的加減,若sft_bexp、sft_sma、sft_bma、sft_csgn、sft_addsub為輸入信號(其含義見shift模塊),則可輸出如下運算結果(在一個時鐘周期內完成):
◇大數指數(sum_bexp),將sft_bexp信號用寄存器延遲一個周期,以實現時序同步;
◇尾數和(sum_ma),為大數尾數與移位后小數尾數的和,差(兩尾數已加入隱含1);
◇和符號(sum_csgn),將sft_csgn信號用寄存器延遲一個周期,以實現時序同步;
(4)normalize模塊
normalize模塊的作用主要是將前三個模塊的運算結果規(guī)范為IEEE 754單精度浮點數標準,若sum_bexp、sum_ma、sum_csgn為輸入信號(其含義見sum模塊),則其輸出的運算結果(在一個時鐘周期內完成)只有一個和輸出(data_out),也就是符合IEEE754浮點數標準的兩個輸入浮點數的和。
4系統(tǒng)綜合與仿真
由于本工程是由compare、shift、sum、normalize四個模塊組成的,而這四個模塊通過串行方式進行連接,每個模塊的操作都在一個時鐘周期內完成,因此,整個浮點數加法運算可在四個時鐘周期內完成。這使得工程不僅有確定的數據運算時延(latency),便于流水線實現,而且方便占用的時鐘周期盡可能減少,從而極大地提高了運算的實時性。
4.1工程綜合結果
經過Quartus II綜合可知,本設計使用的StratixⅡEP2S15F484C3芯片共使用了641個ALUT(高級查找表)、188個寄存器、0位內存和可達到80 MHz的時鐘頻率,因此可證明,本系統(tǒng)利用合理的資源實現了高速浮點數加法運算。
4.2工程仿真結果
本工程仿真可使用Quartus II 8.0內嵌式仿真工具來編寫Matlab程序,以生成大量隨機單精度浮點數(以便于提高仿真代碼覆蓋率,提高仿真的精確度),然后計算它們相加的結果,并以文本形式存放在磁盤文件中。編寫Matlab程序可產生作為仿真輸入的*.vec文件,然后通過時序仿真后生成*.tbl文件,再編寫Matlab程序提取其中有用的結果數據,并與先前磁盤文件中的結果相比較,以驗證設計的正確性。
評論