TMS320C54x和ADSP218x性能比較 作者: 時間:2007-03-09 來源:網(wǎng)絡 加入技術交流群 掃碼加入和技術大咖面對面交流海量資料庫查詢 收藏 摘要:TI(Texas Instruments)公司的TMS320C54X系列和ADI(Analog Devices Inc.)公司的ADSP218X系列是目前應用廣泛的兩款主流16位定點DSP芯片。以Geffe發(fā)生器和MD5算法的實現(xiàn)為例,通過對這兩款芯片性能的詳細比較,分析研究了它們各自優(yōu)缺點。關鍵詞:DSP芯片 TMS320C54X ADSP-218X 性能比較 從1982年第一片數(shù)字信號處理器(Digital Signal Processor,DSP)TMS320C10產(chǎn)生以來,經(jīng)過二十年的發(fā)展,DSP以其卓越的性能、獨有的特點,已成為通信、計算機、消費類電子產(chǎn)品等領域的基礎器件。業(yè)內(nèi)人干預言,DSP將是未來集成電路中發(fā)展最快的電子產(chǎn)品,并成為電子產(chǎn)品更新?lián)Q代的決定因素,它將徹底變革人們的作、學習和生活方式。 DSP[6][8][9]具有兩種算術結構:定點和浮點。從理論上講,雖然浮點DSP的動態(tài)范圍比定點DSP大,且更適合于DSP的應用場合,但定點運算的DSP器件的成本較低,對存儲器的要求也較低,而且耦電較省。定點運算的可編程DSP器件仍是市場上的主流產(chǎn)品。據(jù)統(tǒng)計,目前銷售的DSP器件中的80%以上屬于16位定點可編程DSP器件。其中,TI公司的TMS320C54X系列和ADI公司的ADSP-218X系列是目前廣泛使用的主流定點DSP芯片。下面就以它們?yōu)檠芯繉ο螅Y合Geffe發(fā)生器[7]和MD5算法的實現(xiàn),對其性能進行分析比較。由于TI的TMS320VC5402和ADI的ADSP-2186N是使用較多的兩款,硬件性能指標又相近,有很好的可比性,所以編程實現(xiàn)時選擇它們?yōu)榫唧w芯片。雖然兩款DSP芯片都提供C編譯器,但是因為效率都不高,這里我們就不作討論。下面的論述都是基于直接用匯編語言編程的。 1 Geffe發(fā)生器與MD5算法 先簡單介紹一眄兩個算法。Geffe發(fā)生器是一種密鑰序列發(fā)生器,它利用線性反饋移位寄存器(Linear Feedback Shift Register,LFSR)產(chǎn)生序列密碼。Geffe發(fā)生器使用了三個LFSR,它們以非線性方式結合,其中兩個LFSR作為復合器的輸入,第三個LFSR控制復合器的輸出。因為運算量很大,所以LFSR用軟件實現(xiàn)起來比較慢,但是用匯編語言實現(xiàn)比用C語言實現(xiàn)快。 MD5(MD,即Message Digest)是一個單向散列函數(shù),它對輸入消息產(chǎn)生128位散列值(或消息摘要)。該算法需要進行大量的移位和邏輯操作,用DSP實現(xiàn)比較方便。 2 TMS320C54X系列與ADSP-218X系列性能比較 2.1 硬件結構[1][4][5] TMS320C54X系列采用改進的Harvard結構體系,有一組程序總線和三組數(shù)據(jù)總線、高度并行性的算術邏輯單元ALU、乘法/累加器MAC、桶形移位器、緩沖串口、專用硬件邏輯、片內(nèi)存儲器、片內(nèi)外設和高度專業(yè)化的指令集等等。支持32位長操作數(shù)指令,支持并行存儲和并行裝入的算術指令。 ADSP-218X系列借裝了TMS320X系列的優(yōu)缺點,重新設計。它也是采用改進的Harvard結構體系。ALUMAC、桶形移位器這三個獨立的運算部件均可以單周期操作。還有豐富的雙緩沖串口、中斷(分外中斷和內(nèi)中斷)等。在TMS320C54x系列中,程序存儲區(qū)和數(shù)據(jù)存儲區(qū)是混在一起的,而ADSP-218X系列從物理上就將兩者分開,這就使多功能指令操作顯得非常方便。因此,ADSP-218X系列程序?qū)崿F(xiàn)更有高效性。 兩款芯片主要技術指標的比較如表1所示。表1 兩款DSP芯片主要技術指標比較 比較項目MIPSCycle Time/nsRAM/千字TMS320C54X30~53233.3~1.885~640ADSP-218X33~8030~12.58~104可見,兩款系列芯片性能指標的選擇范圍都很大,而TSM320C54X系列的選擇空間更大一些。具體到本文選用的TMS320VC5400和ADSP-2186N,主要參數(shù)(MIPS/Cycle Time/RAM)為:TMS320VC5402是100/10ns/16kword,ADSP-2186N是80/12.5ns/16Kword。這兩種芯片的硬件性能指標相仿,用它們實現(xiàn)相同的算法,具有很好的可比性。 2.2 程序編程[2][3][4][6] 下面分別用TMS320VC5402和ADSP-2186N實現(xiàn)Geffe發(fā)生器和MD5算法,以此來比較兩款芯片在編程過程中的優(yōu)劣。其中,Geffe發(fā)生器產(chǎn)生96字的序列,MD5處理的消息長63個字。 2.2.1 指令系統(tǒng)概述 ADSP-2186N指令系統(tǒng)使用代數(shù)符號來表示算術運算和數(shù)據(jù)傳送,源代碼具有較高的可讀性,且不會損壞運行特性。它的指令系統(tǒng)很精簡,程序員可以快速掌握。ADSP-2186N的編程方式和高級語言類似,如果用戶有高級語言編程的經(jīng)驗,上手較快。 TMS320VC5402指令系統(tǒng)很豐富,靈活多變,雖然使用時很方便,但是完全掌握卻有一定的困難,這對程序員來說是個不小的難題。它的指令系統(tǒng)有傳統(tǒng)的助記符和代數(shù)符號兩種方式,程序員可以根據(jù)所好任選一種。助記符方式對于習慣了匯編語言的開者易于接受,代數(shù)符號方式則表達簡潔、較為直觀、易于理解。但是,合作完成項目時,往往會由于不同的程序員選擇不同的格式而造成麻煩。解決的方法有兩個,一是使用TI提供的轉(zhuǎn)換工具,另一是只將兩者的obj文件鏈接調(diào)試,但調(diào)試時有些方便。 另外,兩者的編譯環(huán)境也有差別。相比較而言,ADSP-2186N的界面要友好一些,它和VC++非常相像,很方便。 2.2.2 指令的“單周期性” ADSP-2186N的每條程序語言都匯編成僅需一個執(zhí)行周期的24位指令機器碼。它完全在并行處理方式下工作,所有的指令都是真正的單周期指令。除了訪問慢速的外部存儲設備,或者外部存儲器出現(xiàn)控制權競爭而需要附加周期的情況外,任何指令的運行一般僅需一個周期。由于它的指令系統(tǒng)沒什么“禁忌”,所以程序員大可像編寫高級語言程序一樣,只需要考慮算法如何實現(xiàn),至于編程過程就可以不太注意。 可是,TMS320VC5402的指令系統(tǒng)卻不是這樣。TMS320VC5402的各個單元是基于流水線方式的結構,指令按流水線方式工作。它的大多數(shù)指令在單獨執(zhí)行時并不能在一個周期內(nèi)完成,只是在流水線方式下工作或重復操作的,才可以做到平均每一個周期執(zhí)行一條指令。因此,在它的指令系統(tǒng)中,不僅有不少的指令需要多個執(zhí)行周期,而且由于“時延”的原因,如果處理的不好,還會出現(xiàn)額外的附加周期。因此為了保證每條指令準確執(zhí)行,有時就不得不把程序打亂,就是說,相關聯(lián)的幾條語句要分散插入別的地方。程序的模塊化遭到損害,顯得雜亂無章,大大影響了可讀性。 如下面語句中的句1、句2、句3、句4(選自Geffe發(fā)生器)是我們實際應用的形式(指令用代數(shù)符號格式,下面如果不特別指出,均為這要您)。 m_seq_ll: ;標號 …… b=a %26;amp; #1 ;句1 if(aeq)goto m_seq_12 ;句2,if a=0,goto m_seq_12 a=a>>1 ;句3 if(beq)goto m_seq_11 ;句4,if b=0,goto m_seq_11 …… m_seq_12: …… 但是,它們正常語序則應該為 m_seq_11: ;標號 …… a=a>>1 ;句3(若這樣,a的初始值隨之改變) if(aeq)goto m_seq_12 ;句2,if a=0,goto m_seq_12 b=a %26;amp; #1 ;句1 if(beq)goto m_seq_11 ;句4,if b=0,goto m_seq_l1 …… m_seq_l2: …… 不過,若以正常語序執(zhí)行if語句時,a、b的值會因為時延不夠,來不及改變而導致程序出錯。為避免這種情況,要么在句3和句2以及句1和句4之間分別加上若干個空操作(nop),這樣就會影響速度;要么調(diào)整它們的順序,如實際應用中的句1、句2、句3、句4.有時候,語句順序?qū)嵲跓o法調(diào)整,就不得不加上一些空操作。尤其是循環(huán)的主體部分,往往一條語句處理的不好,就會導致整個程序多運行成千上萬條指令。因此,TMS320C54系列編程對程序員的要求較高,必須非常熟悉指令系統(tǒng),才可以得到高效的程序。 2.2.3 對數(shù)組的循環(huán)操作 關于對數(shù)組進行循環(huán)操作,兩者平分秋色。它們都支持寄存器地址自動加減。只不過ADSP-2186N的調(diào)試界面看上去更直觀些。 2.2.4 對32位長操作數(shù)操作 ADSP-2186N不支持32位操作,如果需要的話,必須多條指令共同完成。而TMS320VC5402經(jīng)過簡單的設置,就可以直接進行一些32位操作。 例如,MD5算法中4輪主循環(huán)都需要大量的32位邏輯運算及加法操作。 表2示出“與”運算和加法的實例,顯然,用TMS320VC-2186N實現(xiàn)時,必須將32位分為高16位和16位分別操作,最后再整合。這也是為什么在實現(xiàn)MD5算法時,用ADSP-2186N實現(xiàn)不如TMS320VC5402有效的主要原因。表2 分別用TMS320VC5402和ADSP-2186N實現(xiàn)32位與運算和加法 實現(xiàn)32位與運算實現(xiàn)32位加法運算TMS320VC5402實現(xiàn)a=db1(*ar2);b=b %26;amp; a;b=b+db1(*ar1);b=db1(*ar3);ADSP-2186N實現(xiàn)ay0=DM(i0,m1);ar=ax0 and ay0,ay1=DM(i0,m1);sr0=ar;sr1=ar;ay0=DM(i0,m1);AR=AX0+AY0,ay1=DM(i0,m1);AR=AX1+AY1+C,AX0=AR;AR;AX1=AR;另外,兩者在編程時還有一些不同,例如,TMS320VC5402有標號必須頂格寫等要求??偟膩碚f,TMS320VC5402指令系統(tǒng)中有不少的“禁忌”,需要經(jīng)驗積累才可以發(fā)現(xiàn),這就給編程者帶來了不便。兩款DSP芯片實現(xiàn)Geffe發(fā)生器和MD5算法的具體結果如表3所示。表3 分別用兩款DSP實現(xiàn)密碼算法的結果分析(兩者均在各自的最高主頻下工作) 比較項目程序大小/字需要指令周期數(shù)需要時間/μsGeffe發(fā)生器TMS320VC5402ADSP-2186N252188444,816268,2994,448.163,353.74MD5算法TMS320VC5402ADSP-2186N9004363,4003,00934.0037.61可以看出,實現(xiàn)Geffe發(fā)生器時,ADSP-2186N較快,主要是因為其指令系統(tǒng)的單周期性;實現(xiàn)MD5算法時,TMS320VC5402稍快,主要原因是它支持32位操作。 2.3 其它 總而言之,從技術上看,ADSP-218X系列稍占優(yōu)勢。但目前的實際情況是:1999年TI占有全球DSP市場48%的份額,市場排名第一。2000年其市場占有率也是第二名的兩倍多。尤其在中國,高層占有率在80%左右。主要原因如下: 第一是價格。性能相近的芯片,TI比ADI要便宜很多。如TMS320VC5402的單片價格為$5.66,ADSP-2186N的單片價格則為$8.50。從性價比看,TI占優(yōu)勢。從產(chǎn)品效益看,如果大指生產(chǎn),顯然TI的芯片實惠。 第二是服務。這里指的是指生產(chǎn)商提供的服務。TI公司有非常完善的服務體系,從產(chǎn)品宣傳到課程培訓,非常齊全。ADI公司這方面略有不足。 第三是第三方服務。市場上支持TI芯片的第三方服務要比支持ADI的多,這也是由于TI芯片的市場占有率高的緣故。反過來,大量支持TI芯片的第三方服務,又保證了TI芯片的市場占有率。兩者是相輔相成的關系。 第四是繼承性。DSP芯片有其特殊性,不同公司的芯片,其編程方式差異很大。因此,程序員一旦熟悉了一種芯片,就不愿意更換。在我國,TI公司的用戶要遠遠多于ADI公司的用戶。為便于交流和學習,新的用戶也會傾向于選擇TI公司的芯片。 第五是性能。雖然從技術性能看,TI的芯片稍稍遜色一些,但只要程序員付出一定精力,也可以得到高效的程序。 所以,TMS320C54X系列和ADSP-218X系列可以說是各有千秋,互有短長。ADSP-218X系列界面友好、TMS320C54X系列性價比高、服務體系完善、產(chǎn)品效益好,故公司企業(yè)多選用它。
評論