一種ASIC硬件圖像匹配最大互相關(guān)算法的設(shè)計和實現(xiàn)
LS9501[2]是西安微電子技術(shù)研究所根據(jù)圖像匹配的特點研制成功的一個高速[20M]二維具有3x3內(nèi)核的卷積器,它的主要功能是可同時對9對象素值實現(xiàn)乘加運算,即實現(xiàn):.LS9501的輸入是二維無符號8位的圖像數(shù)據(jù),輸出是無符號20位卷結(jié)果和二維串行移位無符號8位的圖像數(shù)據(jù)。其內(nèi)部結(jié)構(gòu)采用流水線并行技術(shù),主要的功能單元有寄存器組、快速乘法器、加法器和控制電路,如圖2所示。電路中設(shè)置的兩組寄存器A和B由9個8位的移位寄存器構(gòu)成,可存放9個圖像象素數(shù)據(jù)。9個快速乘法器可保證在每一個時鐘內(nèi)同時進行9對圖像數(shù)據(jù)相乘。其工作原理為:向A寄存器輸入9個實時圖象素數(shù)據(jù)后,再向B寄存器輸入入九個基準圖像素數(shù)據(jù),當9對象素值輸入完后,經(jīng)過一定時間延遲,即可得到卷積結(jié)果。此后,如A寄存器的數(shù)據(jù)不變,B寄存器繼續(xù)輸入數(shù)據(jù),則每輸入一個數(shù)據(jù),即可獲得一個9個圖像象素數(shù)據(jù)卷積結(jié)果。如果將多個LS9501卷積器級連起來,可實現(xiàn)更多對象素數(shù)據(jù)的卷積運算。例如,將4個LS9501級連,可實現(xiàn)36對象素數(shù)據(jù)的卷積,但要將4個卷積器的結(jié)果加起來,才能得到最后的結(jié)果。為此,西安微電子技術(shù)研究所研制了級連加法器LS9502,它的功能是在60ns內(nèi)將4LS9501的輸出結(jié)果求和。
3 圖像匹配計算機結(jié)構(gòu)
將4個卷積器LS8501和級連加法器LS9501組合起來作為TMS320C30數(shù)字信號處理器的快速協(xié)處理器部件,可組成一種高速的單DSP+多ASIC系統(tǒng)結(jié)構(gòu)的嵌入式計算機,如圖3所示。其工作過程為:首先TMS320C30按一定次序把36個實時圖象素數(shù)據(jù)從實時圖存儲器中取出并輸入LS9501的A寄存器中,然后,從基準圖存儲中將基準圖像素數(shù)據(jù)輸入B寄存器。輸入36個基準圖像素數(shù)據(jù)后,經(jīng)過一定時間延遲,即可讀出第一個36對圖像象素數(shù)據(jù)卷積結(jié)果。此后即建立起流水,每輸入一個基準圖數(shù)據(jù)可得到相應(yīng)36對圖像象素數(shù)據(jù)卷積結(jié)果,直至對整個基準圖匹配計算完。當實時圖比較大時,可把實時圖分成若干子圖,然后對每一個子圖分別進行卷積運算,最后再把它們的結(jié)果加在一起。這樣,工作量最大的匹配計算任務(wù)由LS8501完成,TMS320C30將各個圖匹配結(jié)果進行累加,求最大互相關(guān)值,并對卷器控制輸入8位灰度圖像數(shù)據(jù)。
4 圖像匹配結(jié)果與討論
在上述圖像匹配計算機中,采用美國TI公司的TMS320C30(33M)DSP芯片主為處理器,4片關(guān)并行的LS9501和級連加法器LS9502組成圖像匹配協(xié)處理器,外部圖像存儲器讀寫為零等待狀態(tài)。根據(jù)組成的計算機系統(tǒng)結(jié)構(gòu),把36x36的實時圖分成36個4x9的子圖,然后計算每一子圖與相應(yīng)基準圖子圖卷積,最后把各個子圖卷積結(jié)果累加在一起。通過編寫TMS320C30匯編程序,對不同大小實時圖和基準圖進行搜索(即匹配所有(M-N+1)2個子圖)最大互相差匹配運算,運算結(jié)果匹配位置正確。匹配運算時間如表2所示(對基準圖像素數(shù)據(jù)預(yù)處理,不計運算時間)。
表2 實時圖和基準圖匹配運算時間
圖像大小 | 運算時間/ms | ||
實時較 | 基準圖 | 由單DSP執(zhí)行 | 由DSP+ABIC執(zhí)行 |
36×36 | 128×128 | 3081 | 623 |
36×36 | 150×150 | 4645 | 946 |
從表2可看出,采用專用集成電路LS9501可大大加快圖像匹配運算速度,而且編程比較簡單,實現(xiàn)容易,實測結(jié)果令人滿意的。
本研究為國家九五預(yù)研項目高速數(shù)字信號處理機技術(shù)的一部分,已通過國家驗收,并已應(yīng)用于高速圖像相關(guān)計算機中。這一研究的成功使我們看到了打破西方禁售策略的一種簡單可行的方法。在實驗中我們發(fā)現(xiàn)LS9501具有非常大的提高其實時性的潛力,現(xiàn)分析如下:
在實驗中發(fā)現(xiàn),LS9501內(nèi)部圖像數(shù)據(jù)移位寄存器時鐘和3級加法器寄存器時鐘不為同一時鐘,這使得卷積模塊的并行效率大為降低。如果將其改進為同一時鐘,那篤在圖3所示單機系統(tǒng)結(jié)構(gòu)中,對(36x36)實時圖與(128x128)或(150x150)基準圖圖像匹配時間將分別為394ms和592ms,圖像匹配速度提高約1倍(軟件模擬)。另外在實驗的單機系統(tǒng)結(jié)構(gòu)中,卷積模塊完全靠TMS320C30控制,其時鐘輸入依賴TMS320C30讀寫信號,而且TMS329C30對外部存儲器連續(xù)時讀寫信號不變化[1],必須加NOP指令以使讀寫信號變化。這樣LS9501的性能沒有得到完全發(fā)揮,而且TMS320C30也不能處理其它任務(wù),二者依賴性太大,相互制約,并行度和實時性難以得到提高。卷積模塊發(fā)展為智能卷積處理器,那么硬件結(jié)構(gòu)右發(fā)展為主從式雙機計算機系統(tǒng)結(jié)構(gòu):主機為DSP,從機為卷積處理器。這種系統(tǒng)結(jié)構(gòu)可使DSP與卷積器的依賴 性降到最低,提高任務(wù)級并行性,也可最大限揮LS9501的性能,從而提高圖像匹配的速度。在不增加單芯片實現(xiàn)的卷積規(guī)模條件下,開發(fā)更高速度的LS9501,同樣可提高圖像匹配的速度。不容質(zhì)疑,提高單芯片實現(xiàn)的卷積規(guī)模必將較大地提高圖像匹配的速度。
由實驗結(jié)構(gòu)及以上分析可以預(yù)見,圖像匹配最大互相關(guān)的專用ASIC實現(xiàn)方法是一個簡單可行的方法,并具有很好的發(fā)展前景,完全可以開發(fā)體積小、成本低、速度與TI公司C6000系列高性能DSP的速度相比美的卷積處理器。
評論