基于FPGA的多軟核圖像處理系統(tǒng)設(shè)計(jì)
本設(shè)計(jì)在Altera Cyclone II EP2C35F672C6芯片上實(shí)現(xiàn)多軟核系統(tǒng),旨在利用FPGA芯片的并行處理結(jié)構(gòu)以及兩個(gè)Nios II軟核處理器間的并行處理和協(xié)作,提升數(shù)字圖像處理系統(tǒng)的性能。
本文引用地址:http://www.ex-cimer.com/article/201706/349229.htm1 CSC MegaCore IP核
Altera視頻圖像處理組合是Altera公司提供的一組用于開發(fā)視頻和圖像處理的MegaCore IP核。這些MegaCore IP在涉及圖像處理和顯示的應(yīng)用中有著廣泛應(yīng)用。這些IP核的功能包括:顏色空間轉(zhuǎn)換、色度重采樣、伽瑪校正、二維FIR濾波器、二維中值濾波器等[1]。
顏色空間是在三維坐標(biāo)系下精確表示各種顏色的三維線性空間。不同的顏色空間采用不同的基色:RGB顏色空間采用紅、綠、藍(lán)三種顏色;CMY顏色空間采用青、品紅、黃三種顏色。不同的硬件設(shè)備使用不同的顏色空間,例如:計(jì)算機(jī)顯示器使用RGB顏色空間,數(shù)字電視使用YCbCr(亮度色度)顏色空間。將圖像數(shù)據(jù)在使用不同顏色空間的硬件設(shè)備間傳輸時(shí),通常都需要進(jìn)行顏色空間的轉(zhuǎn)換[2]。顏色空間轉(zhuǎn)換(CSC)MegaCore提供了靈活且高效的方式將圖像數(shù)據(jù)從一個(gè)顏色空間轉(zhuǎn)換到另一個(gè)顏色空間。
在兩個(gè)不同的顏色空間進(jìn)行圖像數(shù)據(jù)的轉(zhuǎn)換時(shí),需要提供一個(gè)特定的、具有12個(gè)系數(shù)的轉(zhuǎn)換矩陣。該矩陣中的系數(shù)由進(jìn)行轉(zhuǎn)換的兩個(gè)顏色空間決定。例如:din_0、din_1、din_2為被輸入的像素在原顏色空間下的坐標(biāo),[x0,x1,x2,…,x11]為轉(zhuǎn)換矩陣的系數(shù),dout_0、dout_1、dout_2為輸入像素經(jīng)轉(zhuǎn)換后在目標(biāo)顏色空間下的坐標(biāo),則計(jì)算方法如下:
dout_0=x0×din_0+x1×din_1+x2×din_2+x3
dout_1=x4×din_0+x5×din_1+x6×din_2+x7
dout_2=x8×din_0+x9×din_1+x10×din_2+x11
2 CSC MegaCore IP核與Nios II系統(tǒng)的接口設(shè)計(jì)
本設(shè)計(jì)的CSC MegaCore IP具有兩個(gè)Avalon端口:一個(gè)只寫的Avalon從端口,用于接收Nios II軟核處理器通過(guò)Avalon總線傳來(lái)的輸入數(shù)據(jù);另一個(gè)Avalon主端口,將經(jīng)過(guò)CSC MegaCore IP處理后的數(shù)據(jù)通過(guò)Avalon總線寫到存儲(chǔ)器中。
完成上述兩個(gè)Avalon接口的功能,需要CSC MegaCore IP對(duì)外提供如下幾個(gè)必備的Avalon總線信號(hào):reset、clock信號(hào)用于系統(tǒng)復(fù)位和時(shí)鐘信號(hào);write、writedata信號(hào)用于只寫的Avalon從端口;write、writedata、address信號(hào)用于Avalon主端口(用于Avalon主端口和用于只寫的Avalon從端口的write、writedata是不同的信號(hào),只是名稱相同)。
由于定制的CSC MegaCore IP沒有提供Avalon主端口需要的address信號(hào),所以在本設(shè)計(jì)中需要增加地址生成邏輯功能。增加該功能有兩種方式:第一種方式是對(duì)由定制自動(dòng)生成的CSC MegaCore IP的頂層設(shè)計(jì)進(jìn)行更改,在CSC頂層設(shè)計(jì)文件對(duì)外提供的接口中增加address信號(hào),并且在CSC頂層設(shè)計(jì)文件中加入生成address信號(hào)的VHDL代碼。另一種方式是用VHDL語(yǔ)言實(shí)現(xiàn)一個(gè)接口,CSC MegaCore IP只向該接口提供與應(yīng)用相關(guān)的信號(hào),address信號(hào)由在該接口設(shè)計(jì)文件中的VHDL代碼生成。
本設(shè)計(jì)對(duì)兩種設(shè)計(jì)方案都進(jìn)行了嘗試,最終采用了第二種方法。因?yàn)閱为?dú)設(shè)立一個(gè)接口一方面可以解決address信號(hào)的生成問(wèn)題,另一方面設(shè)立該接口文件可以使設(shè)計(jì)的層次更加清晰且具有靈活性和通用性。
設(shè)立這樣一個(gè)接口后,可以將該接口封裝為SoPC自定義組件加入Nios II系統(tǒng)中。這樣,CSC MegaCore IP就成為了Nios II系統(tǒng)的外圍組件,在設(shè)計(jì)中與Nios II系統(tǒng)處于同一個(gè)頂層。而且,由于Altera視頻圖像處理組合中其他的IP核都具有與CSC MegaCore IP相似的對(duì)外接口[1],這樣一個(gè)接口的設(shè)立也解決了Altera視頻圖像處理組合中其他的IP核與Nios II系統(tǒng)的連接問(wèn)題。
3 多軟核系統(tǒng)的設(shè)計(jì)
目前,隨著業(yè)界對(duì)計(jì)算機(jī)芯片的組織和體系結(jié)構(gòu)研究的不斷深入,簡(jiǎn)單地通過(guò)提高系統(tǒng)時(shí)鐘頻率、增加Cache容量以及處理器指令的超標(biāo)量化和流水化等方式實(shí)現(xiàn)系統(tǒng)性能提升的策略已經(jīng)到達(dá)了回報(bào)減小點(diǎn)。傳統(tǒng)方式對(duì)系統(tǒng)性能的提升遇到了瓶頸,有學(xué)者已經(jīng)指出,在單一處理器的條件下,系統(tǒng)性能的提高大致正比于復(fù)雜度提高的平方根[3]。
隨著SoPC技術(shù)的發(fā)展,設(shè)計(jì)者普遍采用了一種新辦法來(lái)改善性能:在同一芯片上安排多個(gè)軟核處理器并帶有大的共享Cache。同一芯片上多個(gè)處理器的使用,亦稱為多核(multiple cores)。在FPGA中采用多個(gè)軟核處理器,根據(jù)時(shí)間和功耗要求劃分任務(wù),可以更高效地利用器件的資源、提升器件的處理效率,從而提升系統(tǒng)整體性能。
硬件資源共享是多核系統(tǒng)的強(qiáng)大功能之一,在多核系統(tǒng)中最普遍的共享資源是存儲(chǔ)器。共享存儲(chǔ)器的數(shù)據(jù)從端口需要與共享存儲(chǔ)器的軟核處理器的數(shù)據(jù)主端口連接。如果某一處理器正在對(duì)共享存儲(chǔ)器的特定區(qū)域進(jìn)行寫操作,而同時(shí)另一個(gè)處理器正在對(duì)同一區(qū)域進(jìn)行讀或?qū)懖僮?,則很可能出現(xiàn)數(shù)據(jù)錯(cuò)誤。因此,在共享存儲(chǔ)器時(shí)需要通過(guò)使用Mutex核或Mailbox核通知其他處理器何時(shí)正在使用共享資源,以便處理器之間不會(huì)相互干擾。
圖1為本設(shè)計(jì)中兩個(gè)Nios II軟核處理器與共享存儲(chǔ)器的連接框圖。其中:SDRAM為共享的程序存儲(chǔ)器,用于存放兩個(gè)處理器的代碼;Flash存儲(chǔ)器為共享的啟動(dòng)存儲(chǔ)器;On_chip_memory是利用片上資源實(shí)現(xiàn)的雙口RAM,在系統(tǒng)中是共享的數(shù)據(jù)存儲(chǔ)器,用于存放圖像數(shù)據(jù)。
由于兩個(gè)Nios II CPU使用同一個(gè)SDRAM作為程序存儲(chǔ)器,因此需要用SoPC Builder提供的存儲(chǔ)器分區(qū)功能來(lái)指定每個(gè)Nios II CPU使用的存儲(chǔ)器區(qū)域。SoPC Builder的分區(qū)功能使用處理器的異常地址來(lái)定義不同處理器之間代碼存放的分界,每個(gè)處理器的異常地址用來(lái)決定處理器代碼存放的基地址,其末地址由下一個(gè)異常地址或存儲(chǔ)器的末地址決定。每個(gè)Nios II CPU有5個(gè)主要的代碼段需要被鏈接到存儲(chǔ)器中,它們分別是: .text、.rodata、.rwdata、heap和stack段。在對(duì)程序存儲(chǔ)器分區(qū)時(shí),必須為每個(gè)處理器的heap和stack段提供足夠的地址空間,否則heap和stack段可能溢出,進(jìn)而破壞處理器的代碼運(yùn)行。
本設(shè)計(jì)中的兩個(gè)Nios II CPU還共享了一個(gè)Flash存儲(chǔ)器,作為啟動(dòng)存儲(chǔ)器。與程序存儲(chǔ)器類似,在多Nios II軟核處理器系統(tǒng)中,每個(gè)處理器必須從自己獨(dú)立的存儲(chǔ)區(qū)域啟動(dòng),多個(gè)處理器不能從同一非易失存儲(chǔ)器的同一地址啟動(dòng)。SoPC Builder對(duì)啟動(dòng)存儲(chǔ)器提供了與程序存儲(chǔ)器類似的分區(qū)功能,用處理器的復(fù)位地址來(lái)定義不同處理器之間啟動(dòng)代碼的分界。
在本設(shè)計(jì)中,多軟核系統(tǒng)的所有硬件資源通過(guò)SoPC Builder連接矩陣的互聯(lián)情況如圖2所示。Mutex核用于兩個(gè)Nios II CPU對(duì)On_chip_memory的互斥訪問(wèn)。兩個(gè)Nios II CPU通過(guò)SoPC Builder中的連接矩陣與這些資源相連接,實(shí)現(xiàn)了資源共享。此外,本設(shè)計(jì)中每個(gè)Nios II CPU都有獨(dú)立的cpu_timer(計(jì)時(shí)器)、custom_comp(自定義CSC MegaCore IP接口)外設(shè)。
圖2 多軟核系統(tǒng)中硬件資源通過(guò)連接矩陣的互聯(lián)情況
Nios II IDE具有在片上對(duì)多處理器同時(shí)進(jìn)行調(diào)試的能力。Nios II IDE multiprocessor collection支持在FPGA片上對(duì)多軟核系統(tǒng)的軟件進(jìn)行調(diào)試。Nios II IDE下載軟件代碼到每一個(gè)處理器,然后運(yùn)行軟件。在multiprocessor collection中不同處理器的啟動(dòng)并不是在同一個(gè)時(shí)鐘周期開始的,只要一個(gè)處理器對(duì)應(yīng)的代碼下載完畢,該處理器就開始執(zhí)行代碼。
運(yùn)行在兩個(gè)Nios II處理器上的軟件通過(guò)硬件Mutex核協(xié)調(diào)對(duì)共享片上數(shù)據(jù)存儲(chǔ)器的訪問(wèn)。運(yùn)行在兩個(gè)Nios II CPU上的程序各負(fù)責(zé)一半的圖像數(shù)據(jù)處理任務(wù),并將處理后的圖像數(shù)據(jù)寫入共享數(shù)據(jù)存儲(chǔ)器中。最后由一個(gè)Nios II CPU將結(jié)果數(shù)據(jù)從共享緩存中讀出,并輸出到結(jié)果文件中。
此外,軟核處理器上運(yùn)行的代碼通過(guò)Altera公司提供的Altera Host Based File System文件系統(tǒng)對(duì)存儲(chǔ)在計(jì)算機(jī)上的文件進(jìn)行讀寫操作。Altera Host Based File System文件系統(tǒng)與Altera Zip Read-Only File System只讀文件系統(tǒng)相比,可以對(duì)文件進(jìn)行寫操作,更加符合本設(shè)計(jì)的需求。加入Altera Host Based File System后即可在代碼中使用ANSI C對(duì)存儲(chǔ)在計(jì)算機(jī)上的文件進(jìn)行訪問(wèn),代碼如下:
FILE*fp_bin=NULL;
fp_bin=fopen(″/mnt/host/hostfs_read_binary.bin″,″r″);
fread(buffer,1,BUF_SIZE,fp_bin);
for(i=0;i P>
{
printf(″%X″,buffer[i]);
}
設(shè)計(jì)中進(jìn)行讀/寫的文件是BMP位圖文件。BMP位圖文件由四個(gè)部分組成:位圖文件頭、位圖信息頭、調(diào)色板數(shù)據(jù)和圖像數(shù)據(jù)區(qū)。為了對(duì)設(shè)計(jì)進(jìn)行簡(jiǎn)化,假設(shè)處理的BMP位圖文件為非壓縮且沒有調(diào)色板的位圖文件。在這類文件中圖像數(shù)據(jù)區(qū)開始于0036h,使用ANSI C中的fseek( )函數(shù)即可讀到圖像數(shù)據(jù)實(shí)體。
4 多核系統(tǒng)與單核系統(tǒng)的性能對(duì)比
由于本設(shè)計(jì)為多軟核系統(tǒng),為了與單Nios II軟核系統(tǒng)進(jìn)行比較,在軟件設(shè)計(jì)中加入了監(jiān)測(cè)軟件執(zhí)行時(shí)間的代碼。對(duì)不同像素?cái)?shù)的圖像進(jìn)行處理時(shí),單核系統(tǒng)與多核系統(tǒng)的程序執(zhí)行時(shí)間如表1所示。
對(duì)表1中的數(shù)據(jù)進(jìn)行分析可知,由于在多核系統(tǒng)中,CPU之間進(jìn)行通信需要一定的時(shí)間開銷,在待處理數(shù)據(jù)量不大時(shí),如1 024像素,單Nios II軟核系統(tǒng)(單Nios II 軟核CPU帶一個(gè)CSC MegaCore IP)與雙Nios II軟核系統(tǒng)(雙Nios II軟核CPU帶雙CSC MegaCore IP)在處理耗時(shí)上的差別并不明顯。當(dāng)處理的圖像數(shù)據(jù)量增大時(shí),雙Nios II軟核系統(tǒng)對(duì)性能的提升逐漸顯示,如圖3所示。
以一幅64×64的BMP位圖的處理時(shí)間為例,雙核系統(tǒng)的處理時(shí)間為3 961 ms,與之配置相同的單核系統(tǒng)的處理時(shí)間為4 656 ms,多軟核系統(tǒng)的性能提高約為15%。
經(jīng)過(guò)對(duì)Quartus II軟件綜合報(bào)告進(jìn)行分析,單核系統(tǒng)對(duì)FPGA片上的邏輯單元(LE)占用為17%,多核系統(tǒng)對(duì)FPGA片上的邏輯單元(LE)占用為27%,多占用了10%的邏輯資源。因此,可以說(shuō)在設(shè)計(jì)中用器件的邏輯資源換取了程序執(zhí)行時(shí)間,而且系統(tǒng)性能的提升量是邏輯資源消耗量的1.5倍,達(dá)到了設(shè)計(jì)的預(yù)期目標(biāo)。
本設(shè)計(jì)基于FPGA實(shí)現(xiàn)了圖像顏色空間轉(zhuǎn)換的多核系統(tǒng)。利用SoPC Builder軟件完成硬件系統(tǒng)的搭建,成功地將硬件系統(tǒng)下載到DE2開發(fā)版,并且在軟件設(shè)計(jì)中實(shí)現(xiàn)了對(duì)共享數(shù)據(jù)存儲(chǔ)器的訪問(wèn)控制以及程序執(zhí)行時(shí)間的監(jiān)測(cè)。為CSC MegaCore IP核與Nios II系統(tǒng)間設(shè)計(jì)的接口使得本設(shè)計(jì)具有一定的靈活性,CSC MegaCore IP核可以用Altera視頻圖像處理組合中的任一個(gè)IP核替換。
本設(shè)計(jì)利用多個(gè)軟核(包括兩個(gè)Nios II軟核處理器和兩個(gè)CSC MegaCore IP)并行對(duì)圖像進(jìn)行顏色空間的轉(zhuǎn)換。與單核系統(tǒng)相比較,多軟核系統(tǒng)性能有較大提高且沒有過(guò)多地占用邏輯資源。
評(píng)論