TMS320C6678存儲(chǔ)器訪問性能 (下)
1.3.3 地址偏移的考慮
本文引用地址:http://www.ex-cimer.com/article/276393.htm地址偏移會(huì)顯著地影響EDMA 的吞吐量。
圖 9說明了地址偏移對(duì)EDMA 吞吐量的影響,它是在1GHz C6678 EVM(64-bit 1333MTS DDR)上從 SL2 到 DDR 傳輸1024 行(BCNT= 1024) 2D 數(shù)據(jù)時(shí)測得的。
![](http://editerupload.eepw.com.cn/201506/733a38b224e2db266495de24d64acd86.jpg)
圖9 偏移量對(duì)EDMA 帶寬的影響
從測試結(jié)果可以看出,線性傳輸 (Index= ACNT)能充分利用帶寬;其它Index 設(shè)置會(huì)降低EDMA性能。最壞的情況是地址偏移為奇數(shù)時(shí)。如果地址偏移大于8 并且是2 的冪次方,性能的下降則比較小。
請(qǐng)注意,Index= ACNT,并且ACNT 是2 的冪次方時(shí),2D 傳輸被優(yōu)化為1D 傳輸,因此性能比其它情況好很多。
除非特殊說明,本文列出的所有性能數(shù)據(jù)都是在Index= ACNT 的情況下測得的。
1.3.4 地址對(duì)齊
地址對(duì)齊對(duì)EDMA 效率稍有影響。EDMA3 缺省突發(fā)數(shù)據(jù)塊大小是64 bytes 或128 bytes,如果傳輸跨越64 或128 bytes 邊界,EDMA3 TC 會(huì)把大小為ACNT 數(shù)據(jù)塊分割成64 或128 bytes 的突發(fā)數(shù)據(jù)塊。這對(duì)1~256 bytes 的數(shù)據(jù)傳輸影響會(huì)比較明顯,而對(duì)更大塊數(shù)據(jù)的傳輸?shù)挠绊憚t不明顯。
除非特殊說明,本文所有性能數(shù)據(jù)都是在地址對(duì)齊的情況下測得的。
2. 多個(gè)主模塊共享存儲(chǔ)器的性能
由于C6678 有8 個(gè)核和很多DMA 主模塊,它們可能會(huì)同時(shí)訪問存儲(chǔ)器。本節(jié)討論多個(gè)主模塊共享存儲(chǔ)器的性能。
2.1 多個(gè)主模塊共享SL2 的性能
圖10 列出了數(shù)據(jù)在SL2 中的組織結(jié)構(gòu)。
![](http://editerupload.eepw.com.cn/201506/7070b5fb0093ec7d331f84344a498e75.jpg)
圖10 SL2 bank 組織結(jié)構(gòu)
所有主模塊都可以通過MSMC (Multicore Shared Memory Controller)獨(dú)立地訪問4 個(gè)SL2 bank中的任一個(gè)。多個(gè)主模塊可以并行地訪問不同的bank;如果多個(gè)主模塊要同時(shí)訪問相同的bank,那就需要根據(jù)優(yōu)先級(jí)仲裁。
表8 列出了在1GHz C6678 上測得的多個(gè)主模塊同時(shí)訪問SL2 的性能數(shù)據(jù)。每個(gè)主模塊反復(fù)訪問自己在SL2 中的數(shù)據(jù)buffer,在相同的時(shí)間內(nèi)(大概2 秒),每個(gè)主模塊傳輸?shù)臄?shù)據(jù)量被統(tǒng)計(jì);而每個(gè)主模塊獲得的帶寬則由數(shù)據(jù)量除以時(shí)間計(jì)算出來。
在這個(gè)測試中,每個(gè)核的L1D cache 大小是32KB,沒有使用L2 cached,prefetch buffer 被使能。
在下面的表中,每列是一個(gè)測試場景的結(jié)果,不同測試場景的主要區(qū)別是同時(shí)訪問存儲(chǔ)器的主模塊的個(gè)數(shù),格子中的數(shù)據(jù)代表相應(yīng)的主模塊在這個(gè)測試場景下獲得的帶寬,一列中的空格代表對(duì)應(yīng)的主模塊在這個(gè)測試場景下未被使用。最后一行中的數(shù)據(jù)是在這個(gè)測試場景下所有主模塊獲得的帶寬的總和。
![](http://editerupload.eepw.com.cn/201506/dbe6862d9b8ccb7ff381a25485dc5a17.jpg)
表8 多個(gè)DSP 核共享SL2 的性能
以上測試結(jié)果證明SL2 不會(huì)成為多個(gè)DSP 核同時(shí)訪問的瓶頸。SL2 有足夠的帶寬 (500M x 32 x 4 = 64000MB/s)來支持所有DSP 核的同時(shí)訪問。每個(gè)DSP 核的吞吐量受限于它自己。
由于SL2 的帶寬足夠支持所有核同時(shí)訪問,所以核的優(yōu)先級(jí)在這種情況下基本不起作用。
![](http://editerupload.eepw.com.cn/201506/eea6e2d5fdb4595070c255891c64f4f0.jpg)
![](http://editerupload.eepw.com.cn/201506/f3f7be24e21e267011e102acb8c9c1fc.jpg)
表9 多個(gè)EDMA 共享SL2 的性能
存儲(chǔ)器相關(guān)文章:存儲(chǔ)器原理
評(píng)論