采用低功耗28nm FPGA降低系統(tǒng)總成本
在針對大批量應(yīng)用開發(fā)系統(tǒng)時,要考慮的一個重要因素是成本。有多個方面會影響總體擁有成本,而不僅僅是每個元器件的價格。這包括硅片的功耗要求、材料(BOM)總成本、設(shè)計和測試系統(tǒng)的工程師的效能等。選擇FPGA供應(yīng)商很重要,要考慮影響系統(tǒng)成本的方方面面,這體現(xiàn)在整個產(chǎn)品設(shè)計周期中。
降低成本和功耗,提高效能,讓產(chǎn)品更快地運行,這些均是設(shè)計工程師目前必須面對的棘手問題,因此,F(xiàn)PGA的選擇很重要。Altera Cyclone V FPGA通過多種方法幫助設(shè)計人員降低系統(tǒng)總成本,設(shè)計人員受益的不僅是TSMC的28nm低功耗(28LP)制造工藝,還包括Cyclone V器件系列內(nèi)置的體系結(jié)構(gòu),以及Altera設(shè)計工具輔助系統(tǒng)所提供的強大的高效能工具。采用Cyclone V FPGA,不僅能實現(xiàn)業(yè)界最低的總體擁有成本,還可獲得型號最全的低成本器件——從25K邏輯單元(LE)到301K LE,以及不到100K LE的唯一28nm解決方案。
Cyclone V FPGA系列有六種目標(biāo)型號:僅含邏輯的(E)型號、基于3G收發(fā)器的(GX)型號、基于5G收發(fā)器的(GT)型號,以及這些型號的SoC衍生產(chǎn)品(分別是SE、SX和ST),每一型號都含有集成雙核ARM Cortex-A9 MPCore應(yīng)用級處理器。每一器件型號集成了豐富的硬核知識產(chǎn)權(quán)(IP)模塊。與前幾代體系結(jié)構(gòu)相比,所采用的先進(jìn)技術(shù)包括,自適應(yīng)邏輯模塊(ALM)、精度可調(diào)數(shù)字信號處理(DSP)模塊、分段式鎖相環(huán)(fPLL)、硬核存儲器控制器等。
28LP制造工藝降低設(shè)計成本
Altera在28nm采用了雙管齊下的制造策略,對于需要盡可能提高帶寬的系統(tǒng),使用TSMC的28nm高性能(28HP)工藝,對于低成本和低功耗應(yīng)用,則采用28LP工藝。Stratix V FPGA采用了28HP工藝,而Arria V和Cyclone V FPGA都采用了LP工藝。對于任何電子系統(tǒng),降低功耗當(dāng)然也就意味著降低了運營成本以及總體擁有成本。
Cyclone V FPGA中使用的成本最優(yōu)28LP工藝定制滿足了低成本和低功耗應(yīng)用需求。通過采用各種技術(shù),包括使用比28HP工藝更長的柵極溝道等,同時降低了泄漏電流和動態(tài)電流。通過使用比28HP工藝更傳統(tǒng)的金屬工藝以及線鍵合封裝技術(shù),進(jìn)一步降低了成本。與倒裝焊封裝相比,線鍵合封裝使用戶在每一型號上節(jié)省了大約5美元。Altera的收發(fā)器設(shè)計專長反映在高速串行接口的高可靠性和低功耗上。在早期功耗估算基準(zhǔn)測試中,與Cyclone IV FPGA相比,Cyclone V FPGA展示出明顯的低功耗優(yōu)勢(圖1)。
圖1 與前幾代技術(shù)相比,Cyclone V FPGA大致降低的功耗
低成本28nm產(chǎn)品提高設(shè)計靈活性
從系統(tǒng)設(shè)計的角度看,某一FPGA系列提供多種器件密度選擇有很大優(yōu)勢。Cyclone V FPGA的系列型號容量從25K LE到301K LE,在低成本28nm器件市場上具有明顯的優(yōu)勢。設(shè)計人員可以在較小的型號上進(jìn)行設(shè)計,如果產(chǎn)品范圍拓展了,以后則可以移植。同樣的,如果設(shè)計規(guī)模變小了,他們還可以使用更小的器件。一般而言,如果在設(shè)計周期的中間階段改換器件系列來處理這類工程更改(ECO),其時間和資源成本都非常高。Cyclone V系列有豐富的縱向移植選擇,Altera提供了最全面、性價比最高的低成本FPGA器件(如圖2)。
圖2 Cyclone V FPGA和Spartan-6以及Artix-7 FPGA的縱向移植途徑對比
Cyclone V FPGA體系結(jié)構(gòu)降低了設(shè)計成本
Altera的28nm體系結(jié)構(gòu)通過多種方式降低了設(shè)計成本。核心架構(gòu)提高了邏輯效率,是目前密度最高的互聯(lián)結(jié)構(gòu)。硬核IP實現(xiàn)了高性能,提高了靈活性,而且縮短了設(shè)計時間。經(jīng)過優(yōu)化后的收發(fā)器具有同類最佳的信號完整性,減少了調(diào)試時間。僅使用兩種電壓軌,因此,電源分配網(wǎng)絡(luò)成本更低,更容易設(shè)計。采用fPLL,支持合成任意頻率的時鐘,不需要昂貴的振蕩器,智能引腳布局提高了器件的可布線能力,增強了信號完整性。
內(nèi)核架構(gòu)和布線提高了邏輯效率
Cyclone V FPGA采用了創(chuàng)新的內(nèi)核架構(gòu)來高效實現(xiàn)邏輯和DSP功能。據(jù)估算,與前幾代技術(shù)相比,由于提高了邏輯利用率,僅增強內(nèi)核就能夠使設(shè)計人員在每一型號上節(jié)省20美元。Cyclone V體系結(jié)構(gòu)的基本構(gòu)建模塊是ALM。它包括一個8輸入分段式查找表(LUT)以及兩個加法器和四個寄存器——都緊密封裝在一起(圖3),提高了性能,能夠很好的使用硅片面積。這一體系結(jié)構(gòu)與Altera的高端器件相類似,是Cyclone IV FPGA的繼承發(fā)展,其基本構(gòu)建模塊是LE,具有4輸入LUT以及一個寄存器。ALM結(jié)合緊密封裝,不僅提高了硅片的性價比,而且更容易實現(xiàn)時序收斂,特別是需要大量寄存器和流水線的設(shè)計。Cyclone V系列提供等價的301K-LE,以垂直臨近邏輯陣列模塊(LAB)的形式排列,每一LAB有10個ALM。由適配器自動配置ALM (由Altera的Quartus II開發(fā)軟件提供),實現(xiàn)應(yīng)用所需要的純組合或者算術(shù)功能。
圖3 Cyclone V FPGA自適應(yīng)邏輯模塊
Cyclone V FPGA具有新的嵌入式存儲器模塊,即M10K。這一存儲器模塊體積小于競爭體系結(jié)構(gòu)中的嵌入式存儲器模塊,從而提高了粒度,單位硅片面積提供更多的存儲器端口,很少浪費模塊。片內(nèi)存儲器體系結(jié)構(gòu)非常適合需要大量DSP的應(yīng)用,例如電機控制、演播設(shè)備和3D電視等。為能夠高效的低成本處理寬淺緩沖和延時單元,Cyclone V器件還提供了更小的640位MLAB模塊。
Cyclone V FPGA還采用了高性能精度可調(diào)DSP模塊。利用Altera創(chuàng)新的DSP模塊以及有限沖擊響應(yīng)(FIR)濾波器專用系數(shù)塊和反饋通路,設(shè)計人員能夠獨立配置每一乘法器的精度,從9x9到27x27位,具體取決于應(yīng)用需求。通過這一功能,Cyclone V FPGA實現(xiàn)了設(shè)計人員在應(yīng)用時所要求的精度合適的乘法器,支持設(shè)計人員盡可能采用最高效的硬件。例如,一個簡單視頻處理應(yīng)用只需要9位精度,而一些高端彩色系統(tǒng)則需要24位。對于9位視頻應(yīng)用,一個模塊可以分成三個9位乘法器,將DSP模塊的效率提高了三倍。一個精度可調(diào)模塊能夠高效的滿足所有這些范圍要求。從而支持設(shè)計人員讓FPGA資源來適應(yīng)其算法,而不是讓算法來適應(yīng)有限的資源要求。
硬核IP實現(xiàn)高性能
Altera在固定硅片中增強了某些常用的IP模塊(例如雙倍數(shù)據(jù)速率存儲器控制器、協(xié)議堆棧,甚至是嵌入式ARM處理器),釋放寶貴的可編程邏輯資源,用于實現(xiàn)其他邏輯功能,從而提高了性能,降低了功耗和成本。作為一個例子,PCI Express(PCIe)協(xié)議堆棧需要大約150K LE作為軟核實現(xiàn),在硬核模塊中則只需要三分之一的器件面積。采用競爭技術(shù)和工具嘗試實現(xiàn)PCIe內(nèi)核的用戶會發(fā)現(xiàn),使用Altera硬核IP結(jié)合Qsys系統(tǒng)集成工具,在設(shè)計和調(diào)試時間上平均能夠節(jié)省6個星期的時間。
Altera還在FPGA中引入了第一種PCIe多功能支持。這一技術(shù)簡化了不同外設(shè)之間對PCIe鏈路帶寬的共享。支持8種功能,PCIe多功能支持將多個單一功能端點集成到一個多功能端點中,能夠節(jié)省20K LE。利用PCIe多功能,設(shè)計人員能夠很好的定制業(yè)界標(biāo)準(zhǔn)處理器和駐留在FPGA邏輯中特有的多種外設(shè)。而且,支持多功能后,設(shè)計人員可以使用標(biāo)準(zhǔn)操作系統(tǒng)(OS)驅(qū)動軟件,在FPGA的外設(shè)上共享PCIe鏈路帶寬。沒有多功能支持時,開發(fā)過程中的一項主要工作是定制驅(qū)動軟件以實現(xiàn)這種資源共享功能。而且,多功能支持不需要多個軟核或者硬核PCIe內(nèi)核,將其集成到了一個多功能PCIe端點中,從而有效降低成本。
硬核IP最早出現(xiàn)在Altera的40nm器件中,作為PHY層單元,不再需要外部高性能串行I/O電路板元器件。在Altera 28nm器件中,嵌入式硬核IP模塊實現(xiàn)了ASIC的成本、性能和功耗特性,不會犧牲設(shè)計靈活性。例如,可以在Cyclone V GT器件中配置PCIe硬核IP模塊來支持PCIe Gen1或者Gen2。此外,Cyclone V FPGA還提供兩個硬核PCIe內(nèi)核——是競爭器件的兩倍。與軟核邏輯實現(xiàn)相比更強的優(yōu)勢是,硬核IP模塊功耗降低了65%,而性能提高了50%,表1列出了Cyclone V FPGA中的硬核IP功能,以及通過硬核實現(xiàn)所節(jié)省的資源量。
表1 Cyclone V FPGA中的硬核IP功能
硬核IP模塊
每個模塊節(jié)省的FPGA資源
32位DDR3/DDR2存儲器控制器,帶有ECC、命令或者數(shù)據(jù)
>40K LE和45 M10K模塊
PCIe Gen1和Gen2
>10K LE
PCIe 多功能
>20K LE
ARM Cortex-A9 MP Core處理器和外設(shè)
>40K LE
成熟可靠的收發(fā)器針對各種數(shù)據(jù)速率進(jìn)行優(yōu)化
Altera的28nm系列產(chǎn)品引入了模塊化收發(fā)器,支持設(shè)計人員滿足實際應(yīng)用的器件性能需求。在Altera所有28nms FPGA系列中,這種收發(fā)器使用了相同的基本體系結(jié)構(gòu),最大工作速率從3.125Gbps直至28Gbps。正如Stratix V和Arria V器件一樣,Cyclone V收發(fā)器能夠在幾種不同的速率設(shè)置之間動態(tài)切換,可以降速來降低功耗。這種選擇功能為降低系統(tǒng)平均功耗提供了一種方法,在空閑時,收發(fā)器工作在最小速率,根據(jù)需要切換到高速工作。
如果I/O擴展等應(yīng)用只需要5Gbps或者速率更低的收發(fā)器,不會出現(xiàn)28Gbps工作時大型晶體管那樣的功耗和成本。相反,收發(fā)器以最低功耗和最低成本實現(xiàn)了3.125Gbps和5Gbps性能,Cyclone V FPGA系列能夠很好的適應(yīng)設(shè)計。與Stratix V和Arria V器件中的收發(fā)器相似,Cyclone V FPGA收發(fā)器支持多種協(xié)議,包括3G SDI、千兆以太網(wǎng)(GbE)、CPRI、Display Port、PCIe、SATA和Serial RapidIO等。Altera收發(fā)器信號完整性以及通過收發(fā)器工具包實現(xiàn)的實時調(diào)試功能,能夠節(jié)省數(shù)星期的電路板開發(fā)和調(diào)試時間。
采用兩種電壓軌簡化電源分配
在所有低成本FPGA中,Cyclone V FPGA需要的電壓軌數(shù)量最少。它們有內(nèi)置片內(nèi)電壓穩(wěn)壓器,因此,只需要使用兩種電壓軌來同時支持邏輯和收發(fā)器電源。這樣,可以不需要板上電壓穩(wěn)壓器,避免布線擁塞,減少了電路板層數(shù),從而簡化了電路板設(shè)計。競爭器件至少需要三種電壓軌來支持內(nèi)核、I/O和收發(fā)器邏輯。額外的電源軌需要增加元件以及PCB面積,還可能會帶來布線擁塞問題,在電路板開發(fā)預(yù)算中,成本可能會增加10到30美元。
fPLL可合成任意頻率無需額外振蕩器
Altera 28nm器件的通用鎖相環(huán)是fPLL,它具有高級分段式頻率合成以及M/N頻率實現(xiàn)功能。在標(biāo)準(zhǔn)PLL中,M和N值都是整數(shù)。Altera采用了delta-sigma調(diào)制器,并在反饋通路中使用了32位M和N值,支持反饋M分頻器采用分段值。這支持實現(xiàn)精確的頻率合成功能。能夠合成任意時鐘頻率,fPLL可以替代電路板上的振蕩器,從而降低了電路板成本,減小了電路板面積。
智能引腳布局提高可布線能力
Cyclone V FPGA以最低的開發(fā)成本提供優(yōu)異的信號完整性。采用了常規(guī)棋盤式電源和地模式,簡化了布板。此外,器件左側(cè)是常規(guī)的收發(fā)器布局,并進(jìn)行重復(fù),而接收器總是在外部,從而實現(xiàn)了最佳信號完整性。還盡量遠(yuǎn)離收發(fā)器放置存儲器I/O引腳,相對于收發(fā)器進(jìn)行屏蔽。Altera的方法是,首先通過避免引腳布局問題,減少在耗時的調(diào)試過程上的投入。
Altera系統(tǒng)設(shè)計工具降低總體擁有成本
Altera的集成設(shè)計環(huán)境,包括Quartus II軟件,為FPGA業(yè)界提供了先進(jìn)的工具集,它提供類似ASIC的時序收斂工具(TimeQuest時序分析器),其高效能特性包括:Qsys系統(tǒng)集成工具、系統(tǒng)控制器、收發(fā)器工具包,以及DSP Builder和SoC虛擬目標(biāo)軟件平臺。其中,Qsys是下一代SOPC Builder工具,用于幫助設(shè)計人員構(gòu)建并調(diào)整系統(tǒng)。Qsys支持用戶開發(fā)的以及商用IP模塊的快速集成,加速了設(shè)計流程,提高了效能。而且,Qsys支持分層設(shè)計,簡化了大規(guī)模設(shè)計的管理。利用系統(tǒng)控制臺這一工具,用戶可以使用系統(tǒng)級會話功能,通過方便簡單的軟件應(yīng)用編程接口(API),在命令行或者系統(tǒng)控制臺圖形用戶界面(GUI)中,采用腳本,或者交互式運行,在更高的抽象級上實時調(diào)試FPGA。系統(tǒng)控制臺非常適合電路板開發(fā)等任務(wù),使設(shè)計人員能夠通過JTAG或者TCP/IP來使用和控制FPGA硬件。
采用具有高級模塊庫的DSP Builder進(jìn)行DSP應(yīng)用設(shè)計
利用DSP Builder,可以采用DSP設(shè)計工具M(jìn)ATLAB Simulink來設(shè)計FPGA,它讓設(shè)計人員能夠繼續(xù)停留在自己熟悉的EDA環(huán)境中,使用易于理解的原理圖輸入工具進(jìn)行設(shè)計,針對目標(biāo)Altera FPGA自動生成可綜合RTL代碼。甚至可以直接從MATLAB環(huán)境中,在Quartus II軟件中編譯設(shè)計,不需要預(yù)先學(xué)習(xí)Verilog或者VHDL便能夠開發(fā)FPGA設(shè)計。
DSP Builder為Simulink提供兩種主要插件,基本模塊庫和高級模塊庫,支持拖動組件,把它們鏈接在一起,并進(jìn)行仿真。兩種模塊庫都支持將可綜合組件放到Simulink原理圖瀏覽器中。采用高級模塊庫,DSP Builder會自動對數(shù)據(jù)通路進(jìn)行流水線處理,滿足fMAX目標(biāo)要求,盡可能重新使用模塊。
SoC虛擬目標(biāo)
Altera SoC FPGA虛擬目標(biāo)是對Cyclone V SoC FPGA中的雙核ARM Cortex-A9 MPCore嵌入式處理器開發(fā)系統(tǒng)的快速功能仿真。這一全面的原型開發(fā)工具“開箱即用”,在PC上運行,啟動Linux操作系統(tǒng),對實際開發(fā)電路板進(jìn)行建模。虛擬目標(biāo)與其仿真的實際硬件二進(jìn)制和寄存器兼容,支持器件專用產(chǎn)品軟件的開發(fā),獲得實際硬件后,不用修改就能夠在硬件中運行。為能夠全面的表示Altera SoC FPGA器件,虛擬目標(biāo)還采用了基于PC的仿真FPGA擴展功能,名為環(huán)路FPGA。如圖4所示,擴展環(huán)路FPGA支持虛擬目標(biāo)與Altera商用FPGA開發(fā)電路板的連接,在這些電路板上,可以實現(xiàn)自己的定制IP,與虛擬目標(biāo)其他組件一起運行。利用這一特性,可以采用定制外設(shè)和硬件加速器等FPGA硬件來測試軟件。
圖4 具有擴展可選環(huán)路FPGA的SoC虛擬目標(biāo)軟件開發(fā)平臺
集成實例——采用Cyclone V FPGA的汽車分析
Cyclone V FPGA適用于很多應(yīng)用,目前發(fā)展很快的一種應(yīng)用是汽車分析。Cyclone V FPGA的低成本以及強大的功能特性非常適合這一應(yīng)用領(lǐng)域。在進(jìn)行串行視頻數(shù)據(jù)處理時,需要進(jìn)行大量的計算,需要很多存儲器,這都可以利用硬核存儲器控制器、高速串行收發(fā)器、fPLL以及豐富的內(nèi)部邏輯和存儲器資源等硬件特性。
此外,用戶利用Altera的視頻和圖像處理(VIP)包很容易在Qsys中開發(fā)復(fù)雜視頻處理系統(tǒng)。圖5顯示了汽車中的一個視頻數(shù)據(jù)集成實例。在這一環(huán)境中可以高效的使用Cyclone V FPGA,這是因為它提供了高清晰功能和其他視頻處理特性,例如,縮放和目標(biāo)探測,不但成本低而且功耗也低。
圖5 Cyclone V FPGA系統(tǒng)應(yīng)用實例——汽車的視頻分析
結(jié)論
Cyclone V FPGA降低了總體擁有成本。TSMC的28LP工藝設(shè)計用于盡可能降低功耗,同時也是成本最低的28nm制造工藝。低功耗意味著提高了用戶價值鏈的系統(tǒng)可靠性,延長了系統(tǒng)壽命,降低了運營總成本。此外,Cyclone V FPGA還有很多體系結(jié)構(gòu)優(yōu)勢,有利于降低系統(tǒng)成本,這包括,硬核存儲器控制器、高效的邏輯和布線資源、fPLL、精度可調(diào)DSP模塊,以及最少的電壓軌需求等。而且,Quartus II軟件帶有Qsys和系統(tǒng)控制臺功能、DSP Builder和SoC虛擬目標(biāo)平臺,支持高效方便的設(shè)計Cyclone V FPGA。對于FPGA設(shè)計人員,Altera硅片和設(shè)計工具協(xié)同工作,實現(xiàn)了最低的總體擁有成本。
評論