FPGA和DSP明幫暗戰(zhàn),爭(zhēng)奪20億美元高性能信號(hào)處理市場(chǎng)
20億美元的新興高性能信號(hào)處理市場(chǎng)吸引了眾多供應(yīng)商目光。
同屬可編程處理平臺(tái),盡管FPGA和DSP芯片供應(yīng)商表面上惺惺相惜,但面對(duì)20億美元的新興高性能信號(hào)處理市場(chǎng),他們的暗戰(zhàn)已經(jīng)開(kāi)始。前者將DSP功能從高端FPGA平臺(tái)擴(kuò)展到了低成本FPGA,并加強(qiáng)了相關(guān)開(kāi)發(fā)工具,希望在復(fù)雜算法和大量并行處理中補(bǔ)充甚至完全替代DSP,從DSP應(yīng)用中的配角變成主角;而后者則通過(guò)集成ASIC的DSP SoC和多核DSP提升處理能力,目的也是減少FPGA和ASIC的使用,捍衛(wèi)DSP的主角地位。此外,一些初創(chuàng)公司也在開(kāi)發(fā)并行陣列處理器,宣稱(chēng)能在單芯片上以相對(duì)較低的時(shí)鐘頻率和功耗獲得“前所未有的DSP性能”。
FPGA渴望“修成正果”
盡管FPGA和DSP一樣擁有20多年的歷史,但和DSP早早成名相比,F(xiàn)PGA由于成本、功耗和性能限制,一直在系統(tǒng)外圍暗自發(fā)力,從最初用于膠合邏輯,到用于控制邏輯,再到用于數(shù)據(jù)通路,艱難地接近系統(tǒng)核心。傳統(tǒng)上,F(xiàn)PGA被用作DSP解決方案中所需要的系統(tǒng)邏輯、多路處理及合并,或是多I/O接口。
進(jìn)入21世紀(jì)后,F(xiàn)PGA終于迎來(lái)了“修成正果”、與CPU、DSP并列于系統(tǒng)核心的最好機(jī)會(huì):一方面,隨著90和65納米工藝的采用,F(xiàn)PGA在成本、功耗和性能上大幅改善,具備成為系統(tǒng)核心的條件;另一方面,三網(wǎng)合一(Tri-play)和融合時(shí)代來(lái)臨,要求復(fù)雜和大量并行處理,DSP在做并行處理時(shí)不如FPGA,這為具有強(qiáng)大并行處理能力的FPGA帶來(lái)了需求。
正是因?yàn)槿绱?,?0納米開(kāi)始,F(xiàn)PGA巨頭們就爭(zhēng)相推出面向DSP應(yīng)用優(yōu)化的高端FPGA平臺(tái),并在65納米FPGA中進(jìn)一步增強(qiáng)了DSP功能。例如,賽靈思面向DSP應(yīng)用的XtremeDSP產(chǎn)品線包括高端的Virtex-4 SX和Virtex-5 SXT,不久前又推出了低成本Spartan-3A DSP系列,而Altera的Stratix II和Stratix III,以及65納米低成本Cyclone III系列同樣強(qiáng)調(diào)DSP應(yīng)用。他們的高端FPGA平臺(tái),瞄準(zhǔn)的是高端通信和視頻應(yīng)用,如無(wú)線基站和包括監(jiān)控、廣播以及3D醫(yī)療圖像在內(nèi)的高分辨率視頻應(yīng)用;低端平臺(tái)則定位于大量對(duì)價(jià)格和功耗都很敏感的應(yīng)用,包括微蜂窩基站、軍用移動(dòng)軟件定義無(wú)線電、超聲系統(tǒng)、輔助駕駛/多媒體系統(tǒng)、高清視頻以及智能IP相機(jī)等——這些也都是傳統(tǒng)DSP芯片看重的新興應(yīng)用。
吳曉東:在需要大量并行處理時(shí),F(xiàn)PGA更優(yōu)于傳統(tǒng)DSP。
賽靈思公司中國(guó)區(qū)運(yùn)營(yíng)總經(jīng)理吳曉東強(qiáng)調(diào)說(shuō):“為什么會(huì)用FPGA做DSP應(yīng)用呢?DSP表示的是數(shù)字信號(hào)處理,并不代表DSP芯片,實(shí)際上數(shù)字信號(hào)處理有很多不同實(shí)現(xiàn)方法,可以用DSP芯片,也可以是MCU,還可以是FPGA和ASIC作數(shù)字信號(hào)處理。事實(shí)上,由于FPGA是一個(gè)天生的并行處理結(jié)構(gòu),因此在進(jìn)行復(fù)雜計(jì)算時(shí)性能遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)DSP芯片。”
賽靈思亞太區(qū)市場(chǎng)營(yíng)銷(xiāo)董事鄭馨南表示,過(guò)去20年里算法復(fù)雜性快速提升是推動(dòng)FPGA進(jìn)入DSP應(yīng)用的最重要市場(chǎng)動(dòng)力。他以通信領(lǐng)域?yàn)槔仡橠SP應(yīng)用歷史說(shuō),20世紀(jì)70年代,DSP應(yīng)用的驅(qū)動(dòng)力為語(yǔ)音頻帶,性能需求的數(shù)量級(jí)為“KHz”,微處理器和MCU可以滿(mǎn)足需求;20世紀(jì)80、90年代,無(wú)線電為DSP應(yīng)用驅(qū)動(dòng)力,性能需求為“MHz”級(jí),DSP獨(dú)領(lǐng)風(fēng)騷;而進(jìn)入21世紀(jì),三網(wǎng)合一(Tri-play)要求非常復(fù)雜的處理,只有DSP+FPGA才能夠滿(mǎn)足需求。
吳曉東進(jìn)一步解釋說(shuō),傳統(tǒng)DSP芯片是實(shí)時(shí)信號(hào)處理的最佳答案,但它畢竟是一個(gè)串行結(jié)構(gòu),進(jìn)行復(fù)雜運(yùn)算時(shí)可能來(lái)回循環(huán)幾百次,因此速度反而不是很快,單個(gè)DSP處理器很難滿(mǎn)足5GMACS以上性能需求;而FPGA是天生的并行處理結(jié)構(gòu),包含了幾百個(gè)MAC單元,因此性能遠(yuǎn)遠(yuǎn)高于傳統(tǒng)DSP芯片,例如我們的Virtex-5 SXT FPGA在550MHz下性能可達(dá)550MSPS;而主頻為1GHz的DSP性能只能達(dá)到8MSPS。他總結(jié)說(shuō):“由于FPGA可以彌補(bǔ)DSP芯片的不足,在信號(hào)處理系統(tǒng)中FPGA與DSP相得益彰。”他一再?gòu)?qiáng)調(diào)FPGA不是要與DSP直接競(jìng)爭(zhēng),“我們現(xiàn)在更多的還是互補(bǔ)的關(guān)系。”
他舉例說(shuō),以前視頻監(jiān)控應(yīng)用的通道數(shù)不多,對(duì)圖像質(zhì)量和實(shí)時(shí)性等也要求不高,很少有人用FPGA;但是隨著監(jiān)控由標(biāo)清轉(zhuǎn)向高清,從單通道轉(zhuǎn)到八通道,從非實(shí)時(shí)轉(zhuǎn)到對(duì)實(shí)時(shí)的要求,外加人臉識(shí)別和運(yùn)動(dòng)估計(jì)等分析功能,普通DSP就很難實(shí)現(xiàn),需要多片DSP來(lái)一起處理,成本十分昂貴。而用DSP+FPGA的方式則十分完美,可以大大節(jié)省成本。其中,F(xiàn)PGA用于加速實(shí)時(shí)視頻處理和壓縮,而DSP運(yùn)行實(shí)時(shí)操作系統(tǒng)和第三方分析軟件。
對(duì)于另一個(gè)目前的大熱市場(chǎng),3G和WiMAX基站,他則表示可利用FPGA的并行處理能力來(lái)設(shè)計(jì)數(shù)字上下變頻器,因?yàn)閷?duì)于需要多載波的數(shù)字變頻器,并行的FPGA是最好地選擇;而DSP則適合于變頻后的符號(hào)率處理。
但是,DSP廠商絕不會(huì)只滿(mǎn)足于僅做后端的符號(hào)處理,比如TI早就推出針對(duì)數(shù)字上下變頻的產(chǎn)品。
另一邊,賽靈思實(shí)際上也并不滿(mǎn)足于協(xié)處理器的位置。在其代理商安富利前不久舉辦的“安富利與賽靈思技術(shù)研討會(huì)”上,安富利展示的一些視頻應(yīng)用已完全將FPGA作為主芯片,并不是協(xié)處理器來(lái)使用。作為賽靈思最主要的方案推廣商,這也暗示了FPGA未來(lái)要走的路。
DSP陣營(yíng)捍衛(wèi)主角地位
對(duì)于來(lái)自戰(zhàn)友的挑戰(zhàn),DSP廠商正在通過(guò)集成ASIC+DSP的SoC(系統(tǒng)級(jí)芯片)和多核DSP提升處理能力,目的也是減少FPGA和ASIC的使用,捍衛(wèi)自己的主角地位。
鄭小龍:DSP SoC和多核DSP可以取代DSP+FPGA/ASIC方案。
對(duì)于FPGA作為協(xié)處理器的觀點(diǎn),TI中國(guó)區(qū)通用DSP業(yè)務(wù)拓展經(jīng)理鄭小龍也表示認(rèn)同,他指出:“在需要高級(jí)別并行處理的情況下FPGA是一種選擇,也是FPGA最適合的場(chǎng)合。在高性能和多通道應(yīng)用中采用DSP+FPGA往往更能勝任,而不是單獨(dú)采用其中某一種平臺(tái)。有了可編程DSP,大多系統(tǒng)控制、排序化處理、用戶(hù)功能化和信號(hào)處理可在DSP上運(yùn)行。如果要加快并行處理,采用FPGA就理所當(dāng)然。”
但鄭小龍同時(shí)指出,當(dāng)某個(gè)應(yīng)用中FPGA實(shí)現(xiàn)的并行加速處理達(dá)到一定市場(chǎng)規(guī)模而足以進(jìn)行專(zhuān)用集成時(shí),TI會(huì)將硬件加速器集成到DSP中去,這樣可以比外掛FPGA在獲得同樣性能的前提下價(jià)格和功耗保持在一個(gè)較低的水平。他解釋說(shuō):“雖然FPGA能提高信號(hào)處理鏈路的速度,但隨著技術(shù)成熟,這些功能可以以較低成本集成到DSP處理器中,比外加一個(gè)芯片效率更高。因此,對(duì)于那些特定應(yīng)用,DSP將提供更優(yōu)異的解決方案。
另外,TI還通過(guò)多核DSP提升性能。一個(gè)典型的例子就是,TI不久前針對(duì)WCDMA基站推出了高集成度的TCI6488,它采用3個(gè)1GHz DSP核,能夠在單芯片上支持宏基站所需的所有基帶功能,無(wú)需FPGA、ASIC及其它橋接器件。這是因?yàn)門(mén)CI6488中已經(jīng)包含了WCDMA系統(tǒng)處理所需的專(zhuān)用協(xié)處理器,例如傳統(tǒng)DSP中沒(méi)有的Viterbi(VCP2)與Turbo(TCP2)協(xié)處理器——過(guò)去它們或采用FPGA/ASIC來(lái)實(shí)現(xiàn),或要靠DSP核來(lái)解決,這就需要增加額外的DSP。TCI6488還具有典型DSP所沒(méi)有的多種外設(shè),如新興的高速天線接口OBSAI/CPRI,而其它沒(méi)有這種接口的器件必須采用一個(gè)FPGA或ASIC管理協(xié)議轉(zhuǎn)換。此外,如果一個(gè)系統(tǒng)需要規(guī)模擴(kuò)展到去支持更多的用戶(hù),TCI6488還可以通過(guò)采用RapidIO接口或者外設(shè)去實(shí)現(xiàn)互連。鄭小龍總結(jié)說(shuō):“TCI6488是一個(gè)三核DSP,它具有很大的處理能力去支持多種多樣的基帶處理,無(wú)需ASIC/FPGA參與。”
他還強(qiáng)調(diào)說(shuō),單核DSP同樣可以取代DSP+FPGA/ASIC方案,只是單核DSP SOC只可以支持有限數(shù)量的用戶(hù),而多核DSP則能夠支持更多用戶(hù)和更多功能。鄭小龍指出:“只要DPS具有恰當(dāng)?shù)耐庠O(shè)、協(xié)處理器和處理速度(MIPS)去有效實(shí)現(xiàn)所需的功能,它就可以成為SoC。在一些情況下,處理需求受到現(xiàn)行技術(shù)的限制,就必須考慮多核,例如TCI6488具有總計(jì)3GHz性能來(lái)滿(mǎn)足指定需求,而單個(gè)的3GHz核在當(dāng)今還不能實(shí)現(xiàn),所以就要采用多核。”
其實(shí),吳曉東也坦承FPGA和DSP雖然不是替代關(guān)系,但也存在一定的競(jìng)爭(zhēng)關(guān)系,尤其是Spartan-3A DSP這種低成本FPGA開(kāi)始覆蓋更廣闊的DSP應(yīng)用(1-30 GMACS性能范圍),與DSP的競(jìng)爭(zhēng)難免。他表示:“目前趨勢(shì)是一個(gè)往下走(FPGA),一個(gè)往上走(DSP),雙方都為了彌補(bǔ)性能上的鴻溝,都是為了更好滿(mǎn)足市場(chǎng)需求,最終的抉擇取決于客戶(hù)和應(yīng)用。”吳曉東指出,很難為客戶(hù)選擇DSP還是FPGA劃定一個(gè)明顯的界限,目前看來(lái)5GMACS以下普通DSP容易實(shí)現(xiàn),5GMACS以上可能就需要多片DSP去處理,這時(shí)候FPGA更有優(yōu)勢(shì)。
而作為信號(hào)處理的傳統(tǒng)主導(dǎo)者,TI則認(rèn)為未來(lái)DSP將繼續(xù)是用戶(hù)的首選。鄭小龍表示,高速數(shù)字信號(hào)實(shí)時(shí)處理是DSP和FPGA所共同面對(duì)的應(yīng)用,兩者都屬于可編程處理平臺(tái),但實(shí)現(xiàn)的方法卻大相徑庭,DSP采用軟件編程,而FPGA則借助硬件編程手段。當(dāng)一個(gè)軟件可編程DSP被用于承擔(dān)任何一種處理負(fù)載時(shí),它就可以成為優(yōu)選的平臺(tái),因?yàn)橄啾绕渌幚砥鳎珼SP可以在較低的成本下同時(shí)具有好的性能和功耗。他強(qiáng)調(diào)說(shuō):“通過(guò)在DSP平臺(tái)上持續(xù)發(fā)展多種多樣的外設(shè)、嵌入式軟件、加速器和協(xié)處理器,TI DSP將持續(xù)保持作為今天和未來(lái)實(shí)時(shí)應(yīng)用中優(yōu)選系統(tǒng)構(gòu)架的地位。”
但是,吳曉東也表示,他們通過(guò)將XtremeDSP核固化后,可以將功耗大大降低,且在實(shí)現(xiàn)MAC功能時(shí),比DSP具有更低的成本。比如通過(guò)Spartan-3A可實(shí)現(xiàn)性能超過(guò)20GMACS,但成本不到30美元的方案。
高性能DSP處理器未來(lái)的發(fā)展方向
在TI看來(lái),多核和SoC是高性能DSP未來(lái)的發(fā)展方向。鄭小龍介紹說(shuō),TI對(duì)高性能DSP的展望包括增強(qiáng)靈活的協(xié)處理器,與單核或多核DSP協(xié)作。這些下一代的DSP將整合許多現(xiàn)在所使用的ASIC類(lèi)型功能,還將支持更多特性和性能,并有能力運(yùn)行在更高速度以支持更多的數(shù)據(jù)吞吐量。通過(guò)性能提升,DSP在目前采用CPU或ASIC的應(yīng)用領(lǐng)域中更有優(yōu)勢(shì)——部分地取代任何一種。事實(shí)上,在大眾市場(chǎng)上,TI已經(jīng)有DSP和CPU相結(jié)合的產(chǎn)品推上市場(chǎng),也就是已經(jīng)量產(chǎn)的“達(dá)芬奇(DavVinci)”系列產(chǎn)品。
在多核DSP方面,目前的TI多核產(chǎn)品設(shè)計(jì)為滿(mǎn)足不同細(xì)分市場(chǎng)的不同需求。TCI6488目標(biāo)是無(wú)線基站處理市場(chǎng);TNETV3020針對(duì)有線網(wǎng)絡(luò)的高密度語(yǔ)音市場(chǎng)。前者采用3個(gè)1GHz DSP核,后者則采用了6個(gè)500MHz DSP核。
不過(guò)與TI、飛思卡爾等廠商的多核DSP策略有所不同的是,許多初創(chuàng)公司正在開(kāi)發(fā)并行陣列處理器芯片,宣稱(chēng)能在單一芯片上以相對(duì)較低的時(shí)鐘頻率和功耗獲得“前所未有的DSP性能”。
例如,新興基站芯片廠商PicoChip的多核DSP——picoArray處理器是一種粗粒度的超大規(guī)模并行異構(gòu)16位處理器陣列,其運(yùn)算和通信資源是靜態(tài)分配的。它含有322個(gè)處理單元,在160MHz的主頻下能提供200GMIPS和40GMACS的性能,據(jù)稱(chēng)性?xún)r(jià)比或功率/性能比至少是其它架構(gòu)(無(wú)論是DSP還是FPGA)的10倍,可取代含有多個(gè)DSP、FPGA及通用控制器的混合架構(gòu)體系,適用于3G/4G和WiMax基站,并且能夠?qū)崿F(xiàn)“軟件無(wú)線電”。
但TI表示,這種如此龐大的并行架構(gòu)應(yīng)用非常有限,而且存在固有缺陷,因此TI沒(méi)有去開(kāi)發(fā)這種產(chǎn)品。鄭小龍解釋說(shuō):“將數(shù)以百計(jì)的DSP核放到一個(gè)芯片上完全可能,TI目前并沒(méi)有追求這種類(lèi)型的大規(guī)模并行架構(gòu),其原因在于這種產(chǎn)品的局限性。例如一個(gè)客戶(hù)所需要運(yùn)行的應(yīng)用必須有益于這樣一種架構(gòu),而由集成上百個(gè)DSP所帶來(lái)的固有挑戰(zhàn)在于三個(gè)方面,一是存儲(chǔ)器的局限性,如此多的核要有效運(yùn)行就需要一個(gè)相當(dāng)大的數(shù)據(jù)和程序存儲(chǔ)器;二是當(dāng)上百個(gè)核都要去訪問(wèn)數(shù)據(jù)時(shí),提供平等的訪問(wèn)去共享如外設(shè)、板上和外部存儲(chǔ)器將很困難;三是在器件中有更多的核就會(huì)有更多的互連,這將增加阻塞。”
其實(shí),這些新興處理器廠商面臨的更嚴(yán)重問(wèn)題是缺乏像DSP和FPGA這樣完善的軟件工具支持,這才是新興處理器廠商進(jìn)入市場(chǎng)最致命的挑戰(zhàn)。
評(píng)論