基于FPGA 的多時鐘片上網(wǎng)絡(luò)設(shè)計
3 性能分析
利用Virtex-4 系列中XC4VLX100-11[4]設(shè)備進(jìn)行設(shè)計, 利用Xilinx ISE 8.2i 進(jìn)行綜合布局布線。使用ModelSim 6.1c[5]驗證所設(shè)計的功能。設(shè)置了單一時鐘和多時鐘進(jìn)行了模擬,分析多時鐘片上網(wǎng)絡(luò)的性能。由于路由器是直接連接到內(nèi)核, 所以沒必要考慮片與片之間的延時而去估計最高的頻率。所設(shè)計是由一個路由功能模塊(RFM)執(zhí)行[6],用以準(zhǔn)確地估計工作頻率,基本路由器的單機(jī)版工作頻率可到達(dá)357MHz。因此8bits 通道的路由器的吞吐量最高可達(dá)2.85Gbits/s。在所設(shè)計的路由器中, 頭數(shù)據(jù)片前進(jìn)到下一個節(jié)點,而剩下的數(shù)據(jù)片以流水線方式流通。在計劃中,網(wǎng)絡(luò)延時僅僅與路徑長度H(跳躍點數(shù)量)有關(guān)。在信道爭用的情況下,網(wǎng)絡(luò)延時L 可以用以下方式計算:
L = 7×H + B/w (1)
公式(1)中,B 是數(shù)據(jù)包的字節(jié)數(shù),w 是每個時鐘周期轉(zhuǎn)換的字節(jié)數(shù)。參數(shù)7 是在多時鐘片上網(wǎng)絡(luò)路由器中安裝在每個路由器跳延遲支付。這個延時是因為基于數(shù)據(jù)包中的頭數(shù)據(jù)片的解碼和仲裁執(zhí)行所導(dǎo)致的。
為了*估所設(shè)計的多時鐘架構(gòu)的性能, 將利用所設(shè)計的路由器的VHDL 模型,模擬一個3×3Mesh 結(jié)構(gòu),在本身頻率下執(zhí)行包裝產(chǎn)生的數(shù)據(jù)包。路由器的頻率值會在拓?fù)浣Y(jié)構(gòu)合成,布局和布線階段完成之后得出。對于不同的配置(資源的可用性、跨路由器的距離、bRAM/dRAM FIFO 的版本),路由器的頻率可以降低高達(dá)18%[6]。圖3 顯示了單一時鐘與多時鐘,在延時與注射速率關(guān)系中的曲線圖。在單一時鐘時,網(wǎng)絡(luò)的頻率為286MHz。而在多時鐘時, 頻率的范圍是從286MHz~357MHz。圖3 中,X 軸表示的注射率是在一個周期內(nèi)每個節(jié)點注入flit 的數(shù)量。Y 軸曲線測量的是每個實例中數(shù)據(jù)包的平均延時??梢钥闯?,所提出的多時鐘片上網(wǎng)絡(luò)相比單一時鐘片上網(wǎng)絡(luò)的性能顯著增加。
4 結(jié)語
本文介紹了一個基于FPGA 的高效率多時鐘的虛擬直通路由器,通過優(yōu)化中央仲裁器和交叉點矩陣,以爭取較小面積和更高的性能。同時,擴(kuò)展路由器運作在獨立頻率的多時鐘NoC 架構(gòu)中,并在一個3×3Mesh 的架構(gòu)下實驗,分析其性能特點,比較得出多時鐘片上網(wǎng)絡(luò)具有更高的性能。
評論