高效的C編程之:C循環(huán)結(jié)構(gòu)
14.5.2循環(huán)展開(kāi)
在14.5.1節(jié)中可以發(fā)現(xiàn),每次循環(huán)需要在循環(huán)體外加兩條指令:一條減法指令來(lái)減少循環(huán)計(jì)數(shù)值和一條條件分支指令。通常這些指令稱為循環(huán)開(kāi)銷(xiāo)(LoopOverhead)。在ARM7或ARM9處理器上,加法指令需要1個(gè)周期,條件分支指令需要3個(gè)周期,這樣每個(gè)循環(huán)就需要4個(gè)周期的開(kāi)銷(xiāo)。
可以通過(guò)展開(kāi)循環(huán)體(LoopUnrolling),即重復(fù)循環(huán)主體多次,同時(shí)按同樣的比例減少循環(huán)次數(shù)來(lái)降低循環(huán)開(kāi)銷(xiāo)。
下面的例子通過(guò)將循環(huán)體展開(kāi)4次,來(lái)達(dá)到減少循環(huán)開(kāi)銷(xiāo)的目的。
intcountbit1(uintn)
{intbits=0;
while(n!=0)
{
if(n1)bits++;
n>>=1;
}
returnbits;
}
將循環(huán)主體展開(kāi)。
intcountbit2(uintn)
{intbits=0;
while(n!=0)
{
if(n1)bits++;
if(n2)bits++;
if(n4)bits++;
if(n8)bits++;
n>>=4;
}
returnbits;
}
這里減少了4N的循環(huán)開(kāi)銷(xiāo)(N=4,即循環(huán)體執(zhí)行的次數(shù))。如果循環(huán)體中存在耗時(shí)的Store/Load指令,則代碼執(zhí)行效率的提高將更明顯。
ARM編譯器不會(huì)自動(dòng)將循環(huán)體展開(kāi),只有用戶自己判斷何時(shí)將循環(huán)體展開(kāi),到底應(yīng)該展開(kāi)多少次,如果循環(huán)的次數(shù)不是循環(huán)展開(kāi)的倍數(shù)該怎么辦?下面就將詳細(xì)討論,用戶編寫(xiě)自己的循環(huán)展開(kāi)程序時(shí),需要注意的問(wèn)題。
①只有當(dāng)循環(huán)展開(kāi)對(duì)提高應(yīng)用程序的整體性能非常重要時(shí),才進(jìn)行循環(huán)展開(kāi);否則反而會(huì)增加代碼尺寸。
②應(yīng)設(shè)法使循環(huán)的次數(shù)是循環(huán)展開(kāi)的倍數(shù)。如果難以實(shí)現(xiàn),那么就要增加額外的代碼來(lái)處理數(shù)組的剩余元素。這將增加少許代碼量,但可以保持較好的性能。
評(píng)論