<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 使用Virtex-5 系列FPGA 獲得更高系統(tǒng)性能

          使用Virtex-5 系列FPGA 獲得更高系統(tǒng)性能

          作者: 時間:2007-09-10 來源:網(wǎng)絡(luò) 收藏
          Virtex-5 器件包括基于第二代高級硅片組合模塊 (ASMBL) 列的多 FPGA 系列。集成了為獲得最佳性能、更高集成度和更低功耗設(shè)計的若干新型元件,Virtex-5 器件達(dá)到了比以往更高的系統(tǒng)性能水平。要獲得最佳系統(tǒng)性能,就必須均衡組合邏輯結(jié)構(gòu)、片上 RAM、DSP 模塊和 I/O 這些高性效比的 FPGA 組件。本文以新型 ExpressFabric 技術(shù)為重點(diǎn),說明用 Virtex-5 系列構(gòu)建模塊所能達(dá)到的性能水平。本文主要描述這項新技術(shù)的主要功能,包括新型 6 輸入 LUT。本文還介紹了提高邏輯及算術(shù)功能性能的量化示例,同時介紹片上 RAM、DSP 模塊和 I/O 的其他增強(qiáng)項。

          有潛可挖的性能

          據(jù)基于客戶設(shè)計的性能基準(zhǔn)測試顯示,與前一代 Virtex-4 器件相比,Virtex-5 系列的
          ExpressFabric 技術(shù)平均提高 30% 的性能,這大約相當(dāng)于兩個等級。

          Virtex-5 系列是高性能設(shè)計的選擇;其邏輯結(jié)構(gòu)和硬 IP 模塊可以在 550 MHz 時鐘速率下運(yùn)行。例如,其邏輯結(jié)構(gòu)中的許多功能都有能力在這一時鐘速率下運(yùn)行,如計
          數(shù)器、加法器以及 LUT 結(jié)構(gòu)的器 (RAM/ROM)。硬 IP 模塊(器和 DSP)也是為了在同樣下運(yùn)行而設(shè)計的。

          ExpressFabric 技術(shù)

          新型 ExpressFabric 技術(shù)以使用對角對稱互連模式的 6 輸入 LUT 和布線為基礎(chǔ)。

          6 輸入 LUT 架構(gòu)

          查找表 (LUT)、特別功能(如進(jìn)位鏈和專用復(fù)用器)和觸發(fā)器 (FF) 的組合以及連接這
          些元件的方法決定著實現(xiàn)邏輯及算術(shù)功能的性能和效率。

          Virtex-5 系列 ExpressFabric 技術(shù)是在 Xilinx 多年經(jīng)驗的基礎(chǔ)上演進(jìn)的一步。自從二十世紀(jì)八十年代中期推出和生產(chǎn)第一款 FPGA 以來,大多數(shù) FPGA 都是以相同的基礎(chǔ)架構(gòu)為基礎(chǔ),即 4 輸入 LUT。過去,所有 FPGA 的一個共同特點(diǎn)是,需要四個以上輸入的功能必須使用若干 LUT 和/ 或復(fù)用器的組合才能實現(xiàn)。

          Virtex-5 系列是第一個提供具有完全獨(dú)立(非共享)輸入的真正 6 輸入 LUT 的 FPGA。這一點(diǎn)帶來了一些令人矚目的優(yōu)勢。為了提高邏輯結(jié)構(gòu)的性能,至關(guān)重要的是要通過 LUT 盡量縮短關(guān)鍵路徑延遲。

          LUT 的輸入架構(gòu)是決定性因素。65 nm 的 6 輸入 LUT 實現(xiàn)了關(guān)鍵路徑延遲與晶片設(shè)計尺寸之間的精妙平衡,如圖1 所示。

          使用較寬的 LUT 輸入,關(guān)鍵路徑延遲縮短了,但在 6 輸入以上 LUT 中,輸入數(shù)越遠(yuǎn)離6 的倍數(shù),關(guān)鍵路徑延遲就越大。另一方面,對于 6 輸入以上 LUT 來說,由于寬輸入LUT 的使用效率低,晶片設(shè)計尺寸也增大了。

          Virtex-5 系列在邏輯架構(gòu)上也有所不同。表1 概述了 Virtex-4 與 Virtex-5 系列可配置邏輯塊 (CLB) 之間的區(qū)別。

          為了更好地理解新 Virtex-5 系列架構(gòu)引入的變化,有必要簡要概述 Virtex-4 的架構(gòu)。

          Virtex-4 系列的基本邏輯元件由一個 4 輸入 LUT 和一個觸發(fā)器及其他元件(如一個功
          能擴(kuò)展器和一個算術(shù)單元)組成。功能擴(kuò)展器的作用是允許構(gòu)建較大的 LUT 結(jié)構(gòu)(如
          5 輸入或 6 輸入 LUT)。在 RAM 模式下,Virtex-4 LUT 可實現(xiàn)一個 16 位元件和一個 16 位移位寄存器,甚至還能實現(xiàn)一個可以在運(yùn)行中改變其內(nèi)容的可加載 LUT。

          Xilinx FPGA 特有的這種分布式 RAM 模式可提供效率很高的小型存儲器。

          與過去的 Xilinx FPGA 系列一樣,Virtex-5 SLICEL 可以用專用的進(jìn)位鏈實現(xiàn)邏輯功
          能、寄存器和算術(shù)功能。請見圖2。

          稍復(fù)雜的 SLICEM 增加了用 LUT 實現(xiàn)分布式 RAM 和移位寄存器 (SRL) 的功能。
          新型 6 輸入 LUT 另有一個輸出端,可用來初始化進(jìn)位鏈或者將 6 輸入 LUT 變成兩個共用輸入端的 5 輸入 LUT。請見圖3。

          6 輸入 LUT 帶來的幾點(diǎn)好處:

          由于它直接在 LUT 中實現(xiàn)較寬的功能,使寄存器之間的邏輯級數(shù)減少,從而提高
          了性能。
          它實現(xiàn)的邏輯顯著大于四輸入 LUT。
          較大 LUT 減少了所需互連(布線資源)量,從而降低了功耗。

          Virtex-5 系列 SLICEM LUT 還提供了其他好處:
          分布式 RAM 的新長寬比:每個 LUT 都可以配置成 64 x 1 或 32 x 2 分布式 RAM。
          給設(shè)計人員帶來的好處是,能夠以高得多的密度和以及更大的靈活性實現(xiàn)分布
          式 RAM。
          更長的 SRL 鏈:一個 LUT 即可支持一個 32 位的 SRL。因此,一個 Slice 即可實現(xiàn)一個多達(dá) 128 位的移位寄存器,與過去的架構(gòu)相比,顯著節(jié)約了面積并減少了布
          線資源。只有 Xilinx 器件中才有移位寄存器這種功能。Xilinx ISE? 軟件封裝機(jī)自
          動封裝兩個共用尋址但不同數(shù)據(jù)的 16 位 SRL。換言之,如果應(yīng)用需要,在一個
          Slice 中即可實現(xiàn) 16 位長和 8 位寬的移位寄存器。

          布線和互連架構(gòu)

          隨著處理技術(shù)的進(jìn)步,互連時序延遲可占關(guān)鍵路徑延遲的 50% 以上。專為 Virtex-5
          系列開發(fā)的新型對角對稱互連模式能以較少中繼段到達(dá)較多地點(diǎn),從而提高性能。這
          種新模式允許在 2 到 3 個中繼段之內(nèi)制作更多邏輯連接。而且,更規(guī)則的布線模式使
          Xilinx ISE 軟件可以更容易地找到最佳布線。所有互連功能對于 FPGA 設(shè)計人員都是透
          明的,但卻能轉(zhuǎn)化為更高的整體性能和更容易的設(shè)計可布線性。從本質(zhì)上說,Virtex-
          5 系列的互連模式可根據(jù)距離提供快速、可預(yù)見結(jié)果的布線。

          圖4 比較了 CLB 中一個源寄存器引起的延遲,該 CLB 用于驅(qū)動一個 LUT,這個 LUT
          與周邊一個 CLB 中的另一寄存器封裝在一起,其目的是衡量布線延遲增大對 Virtex-4
          和 Virtex-5 系列兩種架構(gòu)的影響。


          設(shè)計示例

          下列示例詳細(xì)說明了新型 6 輸入 LUT 架構(gòu)的優(yōu)點(diǎn)。

          復(fù)用器

          最簡單的示例之一是復(fù)用器。一個 4 輸入 LUT 可以實現(xiàn)一個 2:1 的 MUX。具有兩個以上輸入的每種復(fù)用器都需要額外的邏輯資源。在 Virtex-4 架構(gòu)中,一個 4:1 的 MUX 需要兩個 4 輸入 LUT 和一個 MUXF。現(xiàn)在使用新型 6 輸入 LUT,用一個 LUT 即可實現(xiàn)這個 4:1 的 MUX。在 Virtex-4 器件中,一個 8:1 的 MUX 需要四個 LUT 和三個 MUXF。

          使用新型 Virtex-5 系列架構(gòu),只需要兩個 6 輸入 LUT,因而性能和邏輯利用率更高。請見圖5。

          分布式 RAM 和移位寄存器

          分布式存儲功能 (LUT RAM) 從幾個方面受益于較大的 LUT。新的長寬比可顯著提高小
          型存儲功能的封裝密度,從而產(chǎn)生顯著的性能效益。請見圖6。

          算術(shù)功能

          在 Virtex-5 系列架構(gòu)中實現(xiàn)的算術(shù)功能也有幾項改進(jìn):

          支持三進(jìn)制加法(使用一個進(jìn)位鏈)
          復(fù)雜進(jìn)位啟動邏輯
          用于初始化進(jìn)位功能的“自由”地線或 VCC

          以路徑延遲衡量的算術(shù)功能性能顯著改善,如圖7 所示。

          功能模塊的性能優(yōu)勢

          表2 所示為 Virtex-4 與 Virtex-5 系列之間的邏輯和算術(shù)功能性能比較。所示特性是針對各器件系列的最高速度等級。各設(shè)計是通過 ISE 8.1i 軟件運(yùn)行的。

          Block RAM

          Virtex-5 系列的 Block RAM 基址大小已經(jīng)從 Virtex-4 系列的 18 Kbit 增加到 36 Kbit。

          這就使得在 Virtex-5 器件中構(gòu)建較大存儲器陣列更為容易。另外,可以將 36 Kb 的
          Block RAM 用作兩個獨(dú)立的 18 Kbit Block RAM ;因此,構(gòu)建多個 18 Kbit 的或更小的片上 RAM 陣列實質(zhì)上不會有任何問題。

          Virtex-5 系列的 Block RAM 可在簡單雙端口模式下運(yùn)行,從而有效地加倍 Block RAM的帶寬。簡單雙端口模式允許將 Virtex-5 系列的 Block RAM 寬度擴(kuò)展到 32 位以上,每個 Block RAM 可高達(dá)到 72 位。

          新型(即增強(qiáng))Block RAM 的功能包括:

          帶有可選糾錯回寫功能的集成 64 位 ECC
          硬編碼同步 FIFO 選項
          支持 FIFO 可達(dá)單塊寬度 72 位
          雙端口總寬度可達(dá) x36
          簡單雙端口寬度可達(dá) x72
          Block RAM 中的新型電源管理電路:在每個 18K 的塊內(nèi);如果使用 9K 或以下,
          另一半自動關(guān)閉(減少約 50%)
          內(nèi)建級聯(lián)邏輯,允許將相鄰的 Block RAM 級聯(lián)成一個 64Kx1 的 RAM
          Block RAM 運(yùn)行頻率高達(dá) 550 MHz,可提供比 500 MHz 的 Virtex-4 FPGA 更高的性能水平

          DSP

          Virtex-5 系列采用了 DSP48E Slice,這種新型 DSP Slice 與 Virtex-4 FPGA 中的
          DSP48 Slice 相比有重大提升:

          增加了乘法器寬度:Virtex-5 的 DSP48E Slice 以 25 x 18 位的乘法器為基礎(chǔ)(與
          Virtex-4 器件中的 18 x 18 位形成對比)。增加到 25 x 18 位可以減少級聯(lián)的級數(shù),
          從而提高總體性能和使用率。

          浮點(diǎn)運(yùn)算是使用較強(qiáng)乘法能力的一種應(yīng)用,這種運(yùn)算使用 24 x 24 位的無符號乘法
          器進(jìn)行單精度浮點(diǎn)乘法運(yùn)算。兩個 DSP48E Slice 構(gòu)建一個 24 x 24 位無符號乘法
          器,這是 Virtex-4 DSP48 Slice 所需數(shù)量的一半。支持單精度浮點(diǎn)運(yùn)算的實際上是
          兩個 DSP48E Slice 所提供的 35 x 25 位能力的一個子集。在 Virtex-4 器件中,兩
          個 DSP48 Slice 創(chuàng)建一個 35 x 18 位乘法器;而四個 DSP48 Slice 創(chuàng)建一個 24 x 24位無符號乘法器,其中一個 24 x 24 位無符號乘法器是一個子集。
          獨(dú)立的 C 寄存器:在 Virtex-5 器件中,可用于 DSP48E Slice 的信號數(shù)量增加了,因而允許使用獨(dú)立的 C 寄存器。這使 DSP 算法更為靈活且更容易實現(xiàn)。
          邏輯單元的功能性:在 Virtex-5 器件中,加法器的級已經(jīng)擴(kuò)展到可以支持邏輯功
          能。所支持的部分邏輯功能有:按位“異或”功能、按位“異或非”功能、按位“與”功能以及當(dāng)?shù)谝患壋朔ㄆ髋月窌r的按位“非”功能。
          運(yùn)行頻率高達(dá) 550 MHz 的 DSP48E Slice:可提供比 500 MHz 的 Virtex-4 FPGA更高的性能水平。

          并行 I/O

          使 FPGA 實現(xiàn)高速內(nèi)部運(yùn)行只完成了任務(wù)的一半。最高系統(tǒng)性能需要 FPGA 與其他系
          統(tǒng)組件之間的高性能互連。

          Virtex-5 系列的 SelectIO 技術(shù)包含 Virtex-4 器件中的許多熱門功能,如支持單端與差分功能的 ChipSync 技術(shù)和數(shù)控阻抗 (DCI)。

          增強(qiáng)項包括:
          每插槽 40 個 I/O:這是從 Virtex-4 器件的每槽 64 個 I/O 減少后的數(shù)量,因此可以使間隔尺寸更小。
          多達(dá) 1,200 個用戶 I/O:其中每個 I/O 中都有 ChipSync 技術(shù)。
          ODELAY:在 Virtex-4 系列的 ChipSync 邏輯中,為便于時鐘數(shù)據(jù)對齊,在所有輸
          入端上都提供了可編程的 IDELAY 元件。在 Virtex-5 系列中,可對模塊進(jìn)行編程
          以提供輸入或輸出延遲。輸出延遲對解決 PCB 偏移問題很有用。

          Virtex-5 系列 I/O 的性能是單端每秒 800 Mb,差分每秒 1.25 Gb。

          LVDS 帶寬

          借助其更高性能的差分 I/O 功能和更大的封裝,Virtex-5 器件有能力實現(xiàn)每秒 600 x
          1.25 Gb = 750 Gb 的流量。

          存儲器接口

          每個 I/O 中內(nèi)建的 ChipSync 技術(shù)使高性能存儲器接口具有無與倫比的可靠性。它針對加大的設(shè)計余量提供了可調(diào)整的數(shù)據(jù)時鐘校準(zhǔn),其分辨率為 75 ps。這種調(diào)整可以補(bǔ)
          償系統(tǒng)變化,如處理過程、電壓和溫度的變化。

          Virtex-5 器件可以為最新的存儲架構(gòu)實現(xiàn)更寬和更快的接口。請見表3。

          性能增強(qiáng)技術(shù)

          Virtex-5 FPGA 采用了一種低偏移、低抖動 的 550 MHz 差分時鐘結(jié)構(gòu),從而可確保時鐘與數(shù)據(jù)信號的一致性。新型時鐘管理模塊將針對精密時鐘合成的數(shù)字時鐘管理器
          (DCM) 與針對減少抖動的鎖相環(huán) (PLL) 結(jié)合起來,從而顯著提高了靈活性。

          由 ASMBL 專利技術(shù)和大量 PWR/GND 引腳促成的稀疏鋸齒形 (Sparse chevron) 封裝技術(shù)和倒裝芯片組裝技術(shù),實現(xiàn)了封裝和 PCB 電感最小化,從而提高了信號的完整性。片上有源信號終端技術(shù)為最佳化調(diào)整組件互連提供了數(shù)控阻抗 (DCI),同時極大地降低了系統(tǒng)的組件數(shù)和成本。有關(guān)詳情,請參閱白皮書 WP247 《Virtex-5 系列的先進(jìn)封裝》,網(wǎng)址是:
          http://www.xilinx.com/cn/bvdocs/whitepapers/wp247.pdf。

          較低的每兆赫功耗在您的功率預(yù)算內(nèi)提高了性能。在利用 65 nm 技術(shù)降低動態(tài)功耗的
          同時,Virtex-5 FPGA 還用三柵極氧化層技術(shù)將靜態(tài)功耗降至最低。有關(guān)詳情,請參
          閱白皮書 WP246 《65 nm FPGA 功耗》,網(wǎng)址是:
          http://www.xilinx.com/cn/bvdocs/whitepapers/wp246.pdf。

          設(shè)計輸入方法和性能基準(zhǔn)測試

          為了進(jìn)一步評價 Virtex-5 系列的性能改進(jìn),我們用 ISE 軟件實現(xiàn)了一組客戶設(shè)計。最
          大的改進(jìn)是在具有眾多邏輯級數(shù)的設(shè)計上觀測到的。與 Virtex-4 FPGA 相比,新型
          ExpressFabric 技術(shù)將這些設(shè)計的性能提高了高達(dá) 58%。將所有設(shè)計考慮在內(nèi),性能
          平均提高了 30%,如圖8 所示。

          本對比中使用的所有設(shè)計都是基于 RTL (VHDL 和 Verilog)的設(shè)計。其中幾個包含了
          CORE Generator 軟件的 EDIF 格式網(wǎng)表,用來實現(xiàn) FIFO 和存儲器。

          合成過程使用了 XST,然后運(yùn)行了 ISE 布局布線,其難度等級設(shè)置為 HIGH。時鐘約
          束以 5% 小量遞增迭代收緊,直到出現(xiàn)負(fù)松弛。

          有關(guān)如何達(dá)到最佳性能的詳細(xì)信息和提示,請參閱白皮書 WP218 《在 Virtex-4 FPGA中實現(xiàn)性能突破》的最后部分,網(wǎng)址是:
          http://www.xilinx.com/cn/bvdocs/whitepapers/wp218.pdf。

          結(jié)論

          借助其新型 ExpressFabric 技術(shù)與其他較高性能的硬 IP 模塊和 I/O 的緊密結(jié)合,與上一代架構(gòu)相比,Virtex-5 系列表現(xiàn)出了顯著的性能提升。

          如欲了解更多賽靈思技術(shù)文檔,請訪問http://china.xilinx.com/china/documentation/



          關(guān)鍵詞: 存儲 架構(gòu) 速度 平臺

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();