<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > EDA/PCB > 設計應用 > 基于FPGA的多時鐘片上網(wǎng)絡設計

基于FPGA的多時鐘片上網(wǎng)絡設計

作者：時間：2011-02-09 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

在FPGA 上設計一個高性能、靈活的、面積小的通信體系結構是一項巨大的挑戰(zhàn)。大多數(shù)基于FPGA的片上網(wǎng)絡都是運行在一個單一時鐘下。隨著FPGA技術的發(fā)展，Xilinx公司推出了Virtex-4平臺。該平臺支持同一時間內32個時鐘運行[1]，也就是說每個片上網(wǎng)絡的內核可以在一個獨立的時鐘下運行，從而使每個路由器和IP核都運行在最佳頻率上。因此適用于設計多時鐘片上網(wǎng)絡，實現(xiàn)高性能分組交換片上網(wǎng)絡。

本文引用地址：http://www.ex-cimer.com/article/191370.htm

1 多時鐘片上網(wǎng)絡架構的分析

片上網(wǎng)絡結構包含了拓撲結構、流量控制、路由、緩沖以及仲裁。選擇合適網(wǎng)絡架構方面的元素，將對片上網(wǎng)絡的性能產生重大影響[2]。

（1）網(wǎng)絡拓撲：在設計中，選擇Mesh拓撲結構。Mesh結構擁有最小的面積開銷以及低功耗的特點。此外，Mesh的線性區(qū)的節(jié)點數(shù)量規(guī)模大以及通道較寬。同時，Mesh也能很好地映射到FPGA下的底層路由結構，降低了FPGA 邏輯擁塞和路由器的功耗。

（2）流控機制：虛擬直通和蟲洞技術（不像存儲轉發(fā)）有數(shù)據(jù)包的延時與路徑長度成正比。然而，與復雜的蟲洞路由器相比，虛擬直通的路由器更加適合于設計的實現(xiàn)。因此，選擇虛擬直通流量控制機制作為路由器的流量控制機制。相比較蟲洞機制，它能支持更高的吞吐量，在堵塞時能更有效地釋放緩存。此外，虛擬直通流量控制低延時的高信道利用率，與此同時并不保留物理通道。

（3）路由算法：選擇XY算法作為設計所采用的路由算法。該算法中分組的路由只取決于源節(jié)點和目的節(jié)點的地址，而與網(wǎng)絡狀況無關。當使用算法時首先在X維上進行路由，當?shù)竭_與目的節(jié)點同一列時，轉向在Y維上的路由，最后到達目的節(jié)點。該算法對硬件要求簡單和實現(xiàn)容易，在網(wǎng)絡流量不大時，具有較小的時延，能夠有效避免死鎖和活鎖。

（4）仲裁機制：輸入端口分配是基于簡單的Roundrobin[3]機制。上次接收或解決接收的端口會放在隊列的末端。切換時到下游的數(shù)據(jù)包。當交換數(shù)據(jù)包時，F(xiàn)IFO的虛擬通道也遵循這種機制。

2 路由器微節(jié)點結構的設計

多時鐘片上網(wǎng)絡的路由器由5個輸入端口、交叉點矩陣和中央的仲裁器三部分組成。除了頭譯碼邏輯，5個輸入端口都是相同的。由于設計中采取了虛擬通道流控機制（VCS），因此輸入端口就必須包含仲裁邏輯。與此同時，輸入端口還應包含輸入緩沖區(qū)來存儲輸入的數(shù)據(jù)包。

2.1 數(shù)據(jù)包

利用Xilinx block RAM，設置深度為16的FIFO（先入先出隊列），數(shù)據(jù)包的大小能在24 位與128 位之間變化，每個數(shù)據(jù)包header（包頭）占用一個flit（數(shù)據(jù)片）。flit 的大小固定在8位。數(shù)據(jù)包頭包含路由目標地址、flit的類型以及部分數(shù)據(jù)包。設計中采用的虛擬直通流量控制需要1 位去指定數(shù)據(jù)片的類型。路由器支持可變化大小的數(shù)據(jù)包，通過編碼將數(shù)據(jù)包的大小編譯為字段，作為bRAM所需要的部分，放在數(shù)據(jù)包頭部。每個IP核的網(wǎng)絡接口（NI）起到存儲在數(shù)據(jù)包頭部的信息的作用。當需要更高粒度數(shù)據(jù)包時，部分數(shù)據(jù)包的位數(shù)以及寬度將會相應的增加。增加部分數(shù)據(jù)包的位數(shù)的同時也提高了緩存的利用率。數(shù)據(jù)包首部保留的位數(shù)將用于實現(xiàn)基于優(yōu)先級的流量控制。

2.2 輸入端口

路由器有5個輸入端口，通過端口分別與內核及鄰近的路由器通信，這5個端口按在方位可分為本地（L），北（N），東（E），南（S），西（W）。每個輸入端口可以支持虛擬通道多路復用，相關聯(lián)的仲裁器，以及頭譯碼邏輯，從而作出路由決定。如圖1，輸入端口的3 個主要組成部分分別是虛擬通道選擇器、FIFO bRAMs以及bRAM仲裁器。虛擬通道選擇器：決定輸入端緩存的使用空間的決定權在虛擬通道選擇器。當數(shù)據(jù)包大小以編碼形式傳播時，虛擬通道選擇器接收數(shù)據(jù)包的首部。當虛擬通道選擇器收到來自上游路由器或者來自自身核心的數(shù)據(jù)時，虛擬通道選擇器就會拿數(shù)據(jù)包的大小跟虛擬通道目前可以容納數(shù)據(jù)包的大小進行比較。

這么做的目的是為了能夠使輸入的數(shù)據(jù)能夠符合FIFO 中write_count的大小。如果有足夠的空間存在，則虛擬通道選擇器將同意輸入請求，同時反饋信息。在此過程中，虛擬通道選擇器還設置了輸入端解復用器。解復用器的作用是使數(shù)據(jù)包從輸入通道傳輸?shù)秸_的復用器的輸入緩存中。FIFO bRAMs：在所設計的路由器中，緩沖區(qū)的深度將參數(shù)化，在試驗時同時將其深度設置為16 。這些緩存區(qū)將被作為bRAM FIFO的存儲器，同時起到以下作用：

（1）緩沖部分或者全部到來的數(shù)據(jù)包，以及當下游開關可以用時，傳送頭部及緊跟的flit。
（2）劃分路由器核心以及路由器的頻率，從而支持一個多時鐘的網(wǎng)絡設計。
（3）通過仲裁器監(jiān)察write_count 端口的信息，來實現(xiàn)支持可變化大小的數(shù)據(jù)包。在緩沖區(qū)有單獨時鐘域的情況時，就需要一種有效的方式實施完整的或者空的邏輯。通過以下方式使控制信號同步：

（1）發(fā)送數(shù)據(jù)包粒度作為一小部分FIFO 的空間。
（2）在一個時鐘周期內，一個連接終止之前設置flit的尾部位。在所使用的FPGA 設計中，由于支持FIFO的最小深度是16，所以它適合于在虛擬直通中緩沖整個數(shù)據(jù)包。write_count的空和滿狀態(tài)信號將集成在FIFO中。在一個多數(shù)據(jù)包的緩沖區(qū)中加大存儲flit的能力，將有助于提高FIFO的利用率。此外，獲得網(wǎng)絡的吞吐量的增益，是由于上游連續(xù)包釋放緩沖區(qū)所促成的。

圖1 輸入端口設計圖

bRAM仲裁器：輸入端口還包含了控制邏輯作出的仲裁決定。當選擇一個非空的bRAM時，簡單的Round-robin的方式仲裁算法將會啟用。當選擇bRAM時，F(xiàn)SM將會送出頭部flit，解碼出它的目的地址，并發(fā)送相應的要求。在所設計的路由器中采用XY路由算法將大大簡化了解碼器的邏輯結構。根據(jù)XY路由算法的通行路徑許可，即將釋放的請求線將會減少。

頭譯碼器：在XY路由算法中，頭數(shù)據(jù)片一開始往X軸方向走，當?shù)竭_X軸所在的目標地址時，就會往Y方向走。所有緊隨著的數(shù)據(jù)片將以流水線的方式跟著頭數(shù)據(jù)片移動。這種簡便的XY路由算法適用于減化頭解碼器、交叉點矩陣以及中央仲裁器的邏輯結構。以上簡化得邏輯結構將使FPGA的芯片數(shù)顯著減少。

2.3 交叉點矩陣

設計一個多路交叉點矩陣，目的是為了減少面積的使用。而另一種設計是支持復分解虛擬通道的交叉點連接。后一種方法，產生高網(wǎng)絡吞吐量，但要增加一個重要的復雜性開關。交叉點支持并行連接，以及被用于通過中央仲裁器支持多個信號同時請求。并非所有的交叉點連接都是使用XY 路由算法。經(jīng)過邏輯優(yōu)化，如圖2所示設計中實施簡單的4 和2 輸入多路復用器開關（分別是L、N、S、E 以及W 端口）。上述優(yōu)化方案減少了交叉點面積，使其使用的切片只有32 片。因此，達到路由器面積顯著減小的目的。

圖2 交叉點矩陣

輸入端口的分配方式將采用簡單的Round-robin仲裁機制。對上一次接收過的或沒有用到的端口將給予最低優(yōu)先級，并排在隊列的最末端。將通過以下的方式提高路由器的性能：

（1）降低中央仲裁器的邏輯復雜度；
（2）盡量集中仲裁器，以減少req/grant 信號的數(shù)量。

在設計中減少邏輯復雜度以及布線，從而減少數(shù)據(jù)堵塞，達到提高性能以及減低功耗的效果。

3 性能分析

利用Virtex-4系列中XC4VLX100-11[4]設備進行設計，利用Xilinx ISE 8.2i 進行綜合布局布線。使用ModelSim 6.1c[5]驗證所設計的功能。設置了單一時鐘和多時鐘進行了模擬，分析多時鐘片上網(wǎng)絡的性能。由于路由器是直接連接到內核，所以沒必要考慮片與片之間的延時而去估計最高的頻率。所設計是由一個路由功能模塊（RFM）執(zhí)行[6]，用以準確地估計工作頻率，基本路由器的單機版工作頻率可到達357MHz。因此8bits 通道的路由器的吞吐量最高可達2.85Gbits/s。在所設計的路由器中，頭數(shù)據(jù)片前進到下一個節(jié)點，而剩下的數(shù)據(jù)片以流水線方式流通。在計劃中，網(wǎng)絡延時僅僅與路徑長度H（跳躍點數(shù)量）有關。在信道爭用的情況下，網(wǎng)絡延時L 可以用以下方式計算：

L = 7×H + B/w （1）

公式（1）中，B是數(shù)據(jù)包的字節(jié)數(shù)，w是每個時鐘周期轉換的字節(jié)數(shù)。參數(shù)7是在多時鐘片上網(wǎng)絡路由器中安裝在每個路由器跳延遲支付。這個延時是因為基于數(shù)據(jù)包中的頭數(shù)據(jù)片的解碼和仲裁執(zhí)行所導致的。

為了評估所設計的多時鐘架構的性能，將利用所設計的路由器的VHDL模型，模擬一個3×3Mesh結構，在本身頻率下執(zhí)行包裝產生的數(shù)據(jù)包。路由器的頻率值會在拓撲結構合成，布局和布線階段完成之后得出。對于不同的配置（資源的可用性、跨路由器的距離、bRAM/dRAM FIFO 的版本），路由器的頻率可以降低高達18％[6]。圖3顯示了單一時鐘與多時鐘，在延時與注射速率關系中的曲線圖。在單一時鐘時，網(wǎng)絡的頻率為286MHz。而在多時鐘時，頻率的范圍是從286MHz~357MHz。圖3中，X軸表示的注射率是在一個周期內每個節(jié)點注入flit 的數(shù)量。Y軸曲線測量的是每個實例中數(shù)據(jù)包的平均延時?？梢钥闯?，所提出的多時鐘片上網(wǎng)絡相比單一時鐘片上網(wǎng)絡的性能顯著增加。

4 結語

本文介紹了一個基于FPGA 的高效率多時鐘的虛擬直通路由器，通過優(yōu)化中央仲裁器和交叉點矩陣，以爭取較小面積和更高的性能。同時，擴展路由器運作在獨立頻率的多時鐘NoC 架構中，并在一個3×3Mesh 的架構下實驗，分析其性能特點，比較得出多時鐘片上網(wǎng)絡具有更高的性能。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： FPGA 多時鐘 片上網(wǎng)絡

評論

相關推薦

iCE40 LP/HX系列FPGA：萊迪思的創(chuàng)新可編程解決方案

嵌入式系統(tǒng) iCE40 LP/HX FPGA 萊迪思可編程解決方案 | 2024-06-07

實時的噪聲源定位系統(tǒng)

視頻 NI LabVIEW FPGA | 2009-03-25

Altera: 采用全系列40-nm收發(fā)器FPGA和ASIC實現(xiàn)創(chuàng)新

視頻 Altera FPGA ASIC | 2009-07-13

用C/C++語言開發(fā)大規(guī)模FPGA [轉載于www.fpga.com.cn]

xiaohua | 2002-09-24

LatticeECP3設計的視頻協(xié)議板電路圖-FPGA配置

設計方案 LatticeECP3 設計視頻協(xié)議電路圖 -FPGA | 2011-06-27

高速ADC與內置嵌入式串行收發(fā)器的FPGA接口

視頻 Altera FPGA ADC Linear 串行收發(fā)器 | 2009-05-19

基于FPGA的鎖相環(huán)位同步提取電路

設計方案電子電路圖，F(xiàn)PGA 鎖相環(huán) | 2012-07-27

Altera的FPGA下載常見問題經(jīng)驗小結

資源下載 Altera FPGA 常見問題經(jīng)驗 | 2007-12-13

基于FPGA的數(shù)字信號處理--什么是定點數(shù)？

嵌入式系統(tǒng) FPGA 數(shù)字信號定點數(shù) | 2024-05-11

9種單片機常用的軟件架構

嵌入式系統(tǒng) PCB FPGA 架構 | 2024-05-21

Altera公司cyclone系列FPGA-1C6電路圖

設計方案 Altera 公司 cyclone 系列 FPGA-1C6 | 2009-07-17

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

基于SD7502構成的FPGA-ASK電路圖

設計方案基于 SD7502 構成 FPGA-ASK 電路圖 | 2011-07-13

FPGA比單片機厲害嗎？

嵌入式系統(tǒng) FPGA 單片機 | 2024-06-13

LabVIEW FPGA 模塊簡介

視頻 NI LabVIEW FPGA | 2009-04-01

采用創(chuàng)新的FPGA 器件來實現(xiàn)更經(jīng)濟且更高能效的大模型推理解決方案

嵌入式系統(tǒng) Achronix FPGA | 2024-06-18

FPGA是實現(xiàn)敏捷、安全的工業(yè)4.0發(fā)展的關鍵

嵌入式系統(tǒng) FPGA 工業(yè)4.0 Lattice 萊迪思 | 2024-05-06

s3c2410+fpga 做視頻無線傳輸

herbertwj | 2004-08-15

萊迪思推出全新安全控制FPGA系列產品，具備先進的加密敏捷性和硬件可信根

嵌入式系統(tǒng) 萊迪思安全控制 FPGA 加密敏捷性硬件可信根 | 2024-06-27

FPGA如何同DDR3存儲器進行接口?

視頻 Altera FPGA DDR3 | 2008-06-18

ALTERA的PCI_IP Core問答集

資源下載 Altera FPGA PCI_IP Core | 2007-12-13

LabVIEW 8.20技術資料大全簡介

資源下載 NI LabVIEW 射頻和通信 FPGA | 2007-12-11

3-DES算法的FPGA高速實現(xiàn)(Xilinx)

資源下載 Xilinx FPGA 3-DES算法 | 2007-12-13

利用強大的軟件設計工具為FPGA開發(fā)者賦能

嵌入式系統(tǒng) 軟件設計工具 FPGA 萊迪思 | 2024-07-17

基于FPGA的可編程數(shù)字濾波器系統(tǒng)

資源下載 Max FPGA 可編程數(shù)字濾波器 | 2007-12-14

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

國產28納米FPGA流片

嵌入式系統(tǒng) FPGA EDA 芯片 | 2024-05-31

視頻協(xié)議板-FPGA配置基于LatticeECP3的設計

設計方案視頻協(xié)議 -FPGA 配置基于 LatticeECP3 | 2014-05-20

Achronix FPGA增加對Bluespec提供的基于Linux的RISC-V軟處理器的支持，以實現(xiàn)可擴展數(shù)據(jù)處理

嵌入式系統(tǒng) Achronix FPGA Bluespec RISC-V 軟處理器 | 2024-04-15

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();