TMS320C6678存儲(chǔ)器訪問性能(上)
DSP核讀SL2通常會(huì)通過L1D cache,所以,和訪問LL2一樣,DSP核訪問SL2的性能高度依賴cache。
本文引用地址:http://www.ex-cimer.com/article/276392.htmXMC中還有一個(gè)prefetch buffer(8x128bytes),它可以被看作是一個(gè)額外的只對(duì)讀操作可用的cache。DSP核之外的每16-MB存儲(chǔ)器塊都可以通過MAR(Memory Attribute Register)的PFX(PreFetchable eXternally)bit 被配置為是否通過prefetch buffer讀,使能它會(huì)對(duì)多個(gè)主模塊共享存儲(chǔ)器的效率有很大幫助;它也能顯著地改善對(duì)SL2連續(xù)讀的性能。不過,prefetch buffer對(duì)寫操作沒有任何作用。
SL2可以通過從0x0C000000開始的缺省的地址空間訪問,這個(gè)空間總是cacheable,通常它也被配置為prefetchable。SL2可以通過XMC的配置被重映射到其它地址空間,通常重映射空間被用作non-cacheable, nonprefetchable 訪問(當(dāng)然它也可以被設(shè)置為cacheable而且prefetchable)。通過缺省地址空間訪問比通過重映射空間訪問稍微快一點(diǎn),因?yàn)榈刂分赜成湫枰粋€(gè)額外的時(shí)鐘周期。
由于L1D cache不會(huì)在寫操作時(shí)被分配,并且這里的測(cè)試之前cache都被清空了,所以任何對(duì)SL2的寫操作都通過L1D write buffer(4x16bytes)。對(duì)多個(gè)寫操作,如果地址偏移小于16bytes,這些操作可能在write buffer中被合并成一個(gè)對(duì)SL2的寫操作,從而獲得比較高的效率。XMC也有類似的寫合并buffer,它可以合并兩個(gè)在32 bytes內(nèi)的寫操作,所以,對(duì)偏移小于32bytes的寫操作,XMC的寫buffer改善了寫操作的性能。
當(dāng)寫偏移是N*256 bytes時(shí),每個(gè)寫操作總是訪問SL2相同的bank(SL2存儲(chǔ)器組織結(jié)構(gòu)是4 bankx2sub-bankx 32 bytes),對(duì)相同bank的連續(xù)訪問間隔是4個(gè)時(shí)鐘周期。對(duì)其它的訪問偏移量,連續(xù)的寫操作會(huì)訪問SL2不同的bank,這樣的多個(gè)訪問的在流水線上可以被重疊起來,從而使平均的訪問時(shí)延比較小。
圖5 比較了DSP核訪問SL2和LL2的訪問時(shí)延。對(duì)地址偏移小于16bytes的連續(xù)訪問,訪問SL2的性能和LL2幾乎相同。而對(duì)地址偏移比較大的連續(xù)訪問,訪問SL2的性能比LL2差。因此,SL2最適合于存放代碼。
圖5 DSP核訪問SL2和LL2的性能比較
3.3 DSP核訪問外部DDR存儲(chǔ)器的時(shí)延
DSP核訪問外部DDR存儲(chǔ)器高度依賴cache。當(dāng)DSP核訪問外部存儲(chǔ)器時(shí),一個(gè)傳輸請(qǐng)求會(huì)被發(fā)給XMC。根據(jù)cacheable和prefetchable的設(shè)置,傳輸請(qǐng)求可能是下列情況中的一種:
一個(gè)數(shù)據(jù)單元–如果存儲(chǔ)器空間是non-cacheable,nonprefetchable
一個(gè)L1 cache line-如果存儲(chǔ)器空間是cacheable而沒有L2 cache,
一個(gè)L2 cache line-如果存儲(chǔ)器空間是cacheable并且設(shè)置了L2 cache。
如果要訪問的數(shù)據(jù)在L1/L2 cache或prefetch buffer中,則不會(huì)有傳輸請(qǐng)求發(fā)出。
如果被訪問的空間是prefetchable的,可能還會(huì)產(chǎn)生額外的prefetch請(qǐng)求。
外部存儲(chǔ)器的內(nèi)容可以被緩存在L1 cache或/和L2 cache,或者都不用。DSP核之外的每16-MB存儲(chǔ)器塊都可以通過MAR(Memory Attribute Register)的PC(Permit Copy)bit被配置為是否通過cache訪問。如果PC比特為0,這段空間就不是cacheable的。如果PC比特是1而L2 cache大小為0(所有LL2都被用作普通SRAM),那外部存儲(chǔ)器的內(nèi)容只會(huì)被L1 cache緩存。如果PC比特是1并且L2 cache大于0,則外部存儲(chǔ)器的內(nèi)容可以被L1和L2 cache同時(shí)緩存。
像訪問SL2一樣,對(duì)外部存儲(chǔ)器的讀操作也可以利用XMC里的prefetch buffer。它可以通過MAR(Memory Attribute Register)的PFX(PreFetchable eXternally)bit來配置。
多個(gè)訪問之間的地址偏移(stride)顯著地影響訪問效率,地址連續(xù)的訪問可以充分地利用cache和prefetch buffer;大于或等于64字節(jié)的地址偏移導(dǎo)致每次訪問都miss L1 cache因?yàn)長(zhǎng)1D cache行大小是64 bytes;大于或等于128字節(jié)的地址偏移導(dǎo)致每次訪問都miss L2 cache因?yàn)長(zhǎng)2 cache行大小是128 bytes。
如果發(fā)生cache miss,DSP需要等待外部數(shù)據(jù)傳輸完成。等待的時(shí)間是請(qǐng)求發(fā)出時(shí)間,數(shù)據(jù)傳輸時(shí)間或數(shù)據(jù)返回時(shí)間的總和。
圖6是在1GHz C6678 EVM(64-bit 1333MTS DDR)上測(cè)得的DSP核訪問DDR的時(shí)延。DSP核執(zhí)行512個(gè)連續(xù)的LDDW(LoaD Double Word)或STDW(STore Double Word)指令所花的時(shí)間被測(cè)量,平均下來每個(gè)操作所花的時(shí)間被畫在圖中。測(cè)試中,L1D被配置成32KB cache,LL2的256KB被設(shè)置為cache。
對(duì)LDB/STB和LDW/STW的測(cè)試表明,它們的時(shí)延與LDDW/STDW相同。
注意,下面第二和第三個(gè)圖實(shí)際上是第一個(gè)圖左邊的放大。
圖6 DSP核對(duì)DDR Load/Store的時(shí)延
對(duì)地址偏移小于128 bytes的訪問,性能主要受cache的影響。
L2 cache會(huì)在寫操作時(shí)被分配,對(duì)任何寫操作,cache控制器總是先把被訪問的數(shù)據(jù)所在的cache行(128 bytes)讀進(jìn)L2 cache,然后在cache中改寫數(shù)據(jù)。被改寫是數(shù)據(jù)會(huì)在發(fā)生cache沖突或手工cache回寫操作時(shí)被最終寫到外部存儲(chǔ)里。當(dāng)寫操作的地址偏移是1024 bytes的整數(shù)倍時(shí),多個(gè)訪問在L2 cache中發(fā)生沖突的概率很大,所以L2 cacheable寫操作的時(shí)延會(huì)顯著地增加。最壞的情況下,每個(gè)寫操作都會(huì)導(dǎo)致一個(gè)cache行的回寫 (之前的數(shù)據(jù)因?yàn)闆_突而被替換/回寫)和一個(gè)cache行的讀入(新的數(shù)據(jù)被分配到cache中)。
當(dāng)?shù)刂菲拼笥?12bytes時(shí),DDR頁(行)切換開銷成為性能下降的主要因素。C6678 EVM上的DDR頁(行)大小或bank寬度是8KB,而DDR3存儲(chǔ)器包含8個(gè)banks。最壞的情況是,當(dāng)訪問地址偏移量是64KB時(shí),每個(gè)讀或?qū)懖僮鞫紩?huì)訪問相同bank中一個(gè)新的行,而這種行切換會(huì)增加大約40個(gè)時(shí)鐘周期的時(shí)延。請(qǐng)注意,不同的DDR存儲(chǔ)器的時(shí)延可能會(huì)不一樣。
存儲(chǔ)器相關(guān)文章:存儲(chǔ)器原理
評(píng)論