展望未來 多核DSP技術(shù)不僅僅是小把戲
然而,正當(dāng)多內(nèi)核技術(shù)在處理器領(lǐng)域發(fā)展得紅紅火火之時,多核DSP似乎顯得不瘟不火,還僅僅停留在無線基礎(chǔ)設(shè)施應(yīng)用上。
多核DSP之困
正如多核技術(shù)被計(jì)算應(yīng)用廣泛采納一樣:以更低的功率提供更高的性能驅(qū)使DSP技術(shù)必須“一次又一次打破性能藩籬”。“要么是單板面積受限,要么是處理能力受限,越來越多的客戶需要更高的處理平臺,”德州儀器中國區(qū)DSP業(yè)務(wù)開發(fā)經(jīng)理郝曉鵬對電子工程世界如是說。
用戶的需求是多種多樣的。在通信基礎(chǔ)設(shè)施的信號處理中,無論是語音用戶、數(shù)據(jù)用戶還是多媒體用戶,所需的是單位通道成本低、功耗??;而對于視頻檢測、醫(yī)療影像等應(yīng)用,越來越復(fù)雜的二維、三維甚至四維的圖像處理,需要并行化的系統(tǒng)并能夠運(yùn)行復(fù)雜的算法;另外,在高性能、高強(qiáng)度終端設(shè)備中,包括醫(yī)療中的核磁共振,實(shí)時的現(xiàn)場通信,這些設(shè)備需要在極短的時間完成信號處理分析,這時對性能的要求是非常高的。
而目前幾百到1GHz的單核處理器遠(yuǎn)遠(yuǎn)不能滿足這種需求。
與此同時,單核通過提升硅工藝而大幅提升性能的理論,伴隨著漏電流的發(fā)現(xiàn),已經(jīng)不再奏效。同時,主頻從最初的幾百兆赫茲到1.2G赫茲甚至更高,功耗也隨之提升,單板功耗已不可控。功耗的提升,為整個系統(tǒng)設(shè)計(jì)帶來前所未有的復(fù)雜度。此時多核的誕生似乎是理所當(dāng)然。
然而,核越多面臨的挑戰(zhàn)也越大:首先,功耗,這是多核環(huán)境下在系統(tǒng)硬件設(shè)計(jì)上要考慮的一個重要問題,過高的功耗會造成散熱困難進(jìn)而影響系統(tǒng)的穩(wěn)定性。同時,把更多的處理核心集成到一起需要更精細(xì)的制造工藝,例如45納米甚至更窄的線寬,成本必然會提升。程序優(yōu)化會更加越困難,而這些優(yōu)化工作往往不是開發(fā)系統(tǒng)和編譯器能完成的,而是需要大量的高素質(zhì)人才來完成。
隨之而來的,是開發(fā)人員必須學(xué)會如何劃分設(shè)計(jì)以便高效地使用多核DSP。“許多人希望編譯器能完成分割任務(wù)。但這不是一蹴而就的事。為了用好這些器件,我們需要學(xué)會多角度的思考。” TI公司多核解決方案部經(jīng)理Ray Simar表示。
性能與功耗的決斗
然而,以上的種種挑戰(zhàn)絲毫不會影響DSP廠商的腳步,也正是看到了種種需求與挑戰(zhàn),德州儀器 (TI)日前推出了一款在單一裸片上集成了三個 1 GHz 的 TMS320C64x+™ 內(nèi)核的DSP處理器——TMS320C6474。大多數(shù)人心中不免有些疑問:雙核、四核、八核,似乎這些產(chǎn)品已經(jīng)見怪不怪,甚至TI本身也已經(jīng)推出過6 DSP內(nèi)核的TNETV3020。這個時候推出這樣一款產(chǎn)品,是不是略顯過時?
“這主要是看用戶的需求,”郝曉鵬解釋道。多核DSP的應(yīng)用是極具特點(diǎn)的,如無線基站、醫(yī)療影像、現(xiàn)場通信等等,這些領(lǐng)域的客戶對多核DSP的需求是芯片廠商推出產(chǎn)品的首要考慮因素。他們所需的單芯片功耗是多少?從而決定使用多少內(nèi)核;他們所需單芯片的處理能力是多少?這是靠具體應(yīng)用決定的;多核DSP的可編程性和升級維護(hù)以及如何在多核的情況下有效提升并行度?種種諸多因素的折衷,最終導(dǎo)致了這款三核芯片的誕生。
TMS320C6474 在單一裸片上集成了三個 1 GHz 的 TMS320C64x+™ 內(nèi)核,可實(shí)現(xiàn) 3 GHz 的原始 DSP 性能,而功耗和DSP成本則分別比離散處理解決方案降低了 1/3和 2/3。
“一方面要降低功耗,但另一方面又要為新的多媒體和娛樂應(yīng)用增強(qiáng)系統(tǒng)性能,”相信這是大多數(shù)無線移動終端和其他節(jié)能型平臺制造商的都要面對的進(jìn)退兩難的局面?;?C6474 的解決方案有著更為明顯的優(yōu)勢。例如,為了滿足 25 瓦的功率預(yù)算要求,設(shè)計(jì)人員不能采用超過 8 個 1 GHz TMS320C6455 單核 DSP,且每個 DSP 的功耗必須為 3W左右,這一系統(tǒng)的總體性能為 8 GHz。與之對應(yīng)的是基于 C6474 的系統(tǒng)僅包含四顆芯片,每顆芯片的功耗約為 6W。但由于每個處理器包含了三個 1 GHz 內(nèi)核,系統(tǒng)總性能將達(dá)到 12 GHz,從而使單位功率下的性能提高了50%。功耗的提升更多得益于TI 的 SmartReflex 技術(shù),通過 TI 的深亞微米工藝技術(shù)顯著降低了芯片級漏電。該技術(shù)由一系列智能和自適應(yīng)硬件與軟件技術(shù)組成的,這些技術(shù)可根據(jù)設(shè)備活動、操作模式和溫度來動態(tài)控制電壓、頻率和功率。
同時,多核DSP天生的使命就是提升性能。C6474 在同一裸片上集成了三個 1 GHz 的 C64x+™ 內(nèi)核,可實(shí)現(xiàn) 3 GHz 的 DSP 性能,即處理能力為 24,000 MMACS(16 位)或 48,000 MMACS(8 位)。同時,考慮到很好的延續(xù)性,該產(chǎn)品與諸如 TMS320C6452 與 TMS320C6455 等基于 C64x+ 內(nèi)核的單核 DSP的代碼完全兼容,而且與 TMS320C641x等基于前代 TMS320C64x™ 內(nèi)核的產(chǎn)品也完全兼容。
評論