ARM內核目標系統(tǒng)中的代碼運行時間測試方法
在ARM系統(tǒng)中,有時需要精確的時間測量。通常,取時間的C函數(shù)(如gettime()等)不僅通用性差(必須包含頭文件DOS.H,且不支持Unix、Linux和標準C),明顯不適用于ARM系統(tǒng)[1];更成問題的是,其最短時間只能到10-2 秒級,不能提供更短的時間分度。根本原因在于: 這類函數(shù)是基于系統(tǒng)實時時鐘(RTC)的,而RTC通常采用標準化鐘表晶振,頻率只有32.768 kHz而已[2]。
然而很多應用涉及μs級的時間計量,這是標準化了的RTC以及基于它的時間函數(shù)所無能為力的。筆者在移植DES算法到ARM系統(tǒng)的實驗過程中,便遇到過要定量評估加密算法耗時多少的問題,發(fā)現(xiàn)的確不能用上述常規(guī)的C函數(shù)解決。經(jīng)對ARM芯片結構的考察,發(fā)現(xiàn)其內置的WatchDog系統(tǒng)是以系統(tǒng)時鐘驅動的,定量性能應該很好,區(qū)分時間間隔的精細程度也應該足夠。于是根據(jù)所用ARM芯片的原廠家數(shù)據(jù)手冊中的說明,借用 WatchDog編寫了自己的計時函數(shù),使用起來也比較方便。考慮到ARM芯片都帶有內置看門狗,筆者覺得這種方法可算是一個不錯的“過渡性”解決方案,故在此加以介紹,供同行們參考并指正。
1 測量原理
ARM芯片中的看門狗,其原始功能是監(jiān)視CPU核心運行的某些超時。這些超時的發(fā)生,通常是因為干擾和系統(tǒng)錯誤等造成的程序運行混亂。一旦發(fā)生這類情形,看門狗便請求中斷服務或發(fā)出復位脈沖重啟系統(tǒng)。為了達到這樣的目的,其計時原理必須獨立于系統(tǒng)中的任何進程。實際上,WatchDog是獨立的硬件邏輯,其計時脈沖直接取自系統(tǒng)主時鐘,因此它與RTC一樣具備實時性和獨立性,借用看門狗的計時體系來實現(xiàn)高精度時間測量是合理的。
先以實驗中用到的S3C44B0X為例(該實驗所用的ARM開發(fā)板型號為NETARM300),具體談談看門狗的工作原理。其原理框圖如圖1所示,圖中MCLK即系統(tǒng)主時鐘[3]。
圖1 S3C44B0X內嵌看門狗硬件原理框圖
從圖中可以看出,系統(tǒng)主時鐘MCLK經(jīng)過可編程預分頻、可選固定分頻后,進入WTCNT(硬件系統(tǒng)的計時計數(shù)器,16位)計數(shù)。根據(jù)器件手冊,計數(shù)時間間隔t_watchdog=1/(MCLK/(Prescaler value+1)/Division_factor )。式中,參數(shù)Prescaler value的取值為0~28-1;Division_factor有16、32、64、128四種取值。如果復位信號輸出允許(即WTCON的位0置1),那么一旦計數(shù)器WTCNT的計數(shù)超過WTDAT允許的范圍,看門狗就會將CPU復位。本實驗過程中屏蔽掉了這種復位和中斷請求功能,僅讓它對脈沖計數(shù)。
控制寄存器WTCON的有關各位定義圖中已給出(如需詳細解釋可查閱器件手冊,如參考文獻[3]),其他全為保留位,可全置為0。
至于MCLK具體值的計算,可以查驗系統(tǒng)中的晶振參數(shù)(頻率),讀取系統(tǒng)時鐘的PLL寄存器(如S3C44B0X的PLLCON)后算得。計算的方法都已在具體ARM芯片手冊中給出[4]。
2 測量算法實現(xiàn)和實驗結果
按照所需參數(shù)設置的看門狗定時器控制寄存器WTCON的值(如前所述),在待測代碼段執(zhí)行之前開啟看門狗定時器;等其執(zhí)行完畢則關閉看門狗定時器,讀取WTCNT的值即可算得運行時間。作為一個具體示例,筆者實驗中所實現(xiàn)的算法如下:
(1) 計時算法
void my_CountStart() {
rWTCON=((MCLK/1000000-1)8)|(23); //1 MHz/64,Watchdog,nRESET,中斷禁止
rWTDAT=0xffff;
rWTCNT=0xffff;
rWTCON=((MCLK/1000000-1)8)|(23)|(15); //計時開始
}
int my_CountStop() {
int i=0;
rWTCON=((MCLK/1000000-1)8)|(23); //計時結束
i=0xffff-rWTCNT;//每16 μs計數(shù)一次
return i*16;
}
(2) 應用
int Main() {
my_CountStart();
Des_Go(buf, buf, sizeof(str), key, sizeof(key), ENCRYPT, Is3DES);
encrypt_time=my_CountStop();
}
需要指出: 在改變WTCON的值之前應將原有值保存,待測量完成后再復原WTCON。之所以強調這一點,是因為系統(tǒng)別處很可能在使用看門狗功能。
實驗當中,對長度為189字節(jié)的字符串采用3次DES加密。密鑰長度為15位,測得的加密時間為28 832 μs,解密時間為28 896 μs??s短字符串長度,測得的加密時間基本呈線性變化: 字符串長度為107字節(jié)而其他地方不變時,加密耗時16 928 μs,解密耗時16 948 μs;字符串長度為41字節(jié)而其他地方不變時,加密耗時7 424 μs,解密耗時7 424 μs。對于相同長度的字符串,密鑰長度的改變對加密/解密時間的影響不是很大。
值得一提的是,剛開始實驗時,被加密字符串分別取為190字節(jié)和75字節(jié),測得耗時分別是34 032 μs和16 928 μs,顯然與倍增的關系相差很遠。分析程序后發(fā)現(xiàn),原來問題出在加密算法中間的打印語句“Uart_Printf("ncounting begin...!!!")”上。原來以為它耗時很少,故沒有將它從加密算法中移走;移走后再試,耗時大減,分別為29 600 μs和12 496 μs,與字符數(shù)倍增、時間倍增的預期基本相符。上面的實驗,還使筆者得知該打印語句占用了4 432 μs。稍微修改條件,繼續(xù)實驗: 當上述打印語句的字節(jié)數(shù)擴充為原來的4倍時,測得該語句耗時17 728 μs??梢?耗時與打印內容的字節(jié)數(shù)基本上成正比;另外,這種打印語句與加密/解密算法本身相比,并不是想當然地只占用一點點時間。(上述數(shù)據(jù)與PC機串口通信波特率的設置無明顯關系。實際測試結果為: 波特率由115 200 bps下降到57 600 bps,沒有可以察覺到的差別。)
3 測量方法討論
ARM內置看門狗用作時間度量的適用范圍,大體以μs數(shù)量級為界。比如,從S3C44B0X的器件特性說明中可知,MCLK在看門狗計時器里的分頻比至少是1/16。典型情況下,MCLK=60 MHz,則看門狗能夠分辨的最短時間單元t=1/(60 MHz/16)=0.27 μs。統(tǒng)計誤差約為t/2,即0.1μs數(shù)量級。就μs級的時間測量精度而言,相對誤差有可能達到1%~10%;不過,這對很多速度估算的場合來說還是可以接受的。如果被測時間在10 μs以上,那就沒有任何問題,可以認為是相當精確的了。
這種思路還可用來實現(xiàn)精確延時,因為它的定時不依賴于指令執(zhí)行時間(指令執(zhí)行要受到系統(tǒng)調度等的影響,因而有很多不確定因素),而取決于對主時鐘的硬件分頻計數(shù)。
由此實驗推廣,ARM內置看門狗可以作為此類系統(tǒng)中的第二時鐘存在。對于那些時間要求精確到μs、RTC的精度無法滿足的應用,這種處理都不失為一種準確、高效的方法。
評論