讓生物識別技術(shù)成為FPGA動態(tài)部分重配置功能的“殺手級”應(yīng)用
重配置控制器
本文引用地址:http://www.ex-cimer.com/article/117277.htm設(shè)計高效的重配置控制器是部署面向單一環(huán)境 FPGA 的 PR (部分重配置)系統(tǒng)的成功關(guān)鍵。雖然在重配置 PRR 期間,FPGA 的非重配置區(qū)域仍然處于工作狀態(tài),但 PRR 資源此時并沒有處于工作狀態(tài),故應(yīng)盡量加快重配置過程,以便最大限度地降低開銷。重配置的時間取決于三個因素:數(shù)據(jù)總線寬度、重配置頻率以及比特流大小。前兩個因素與接口特性有關(guān),而最后一個與 PRR 的大小及其中的部分重配置模塊 (PRM) 的設(shè)計復(fù)雜程度有關(guān)。
我們的工作實現(xiàn)了一個重配置控制器,其能在運行時將部分比特流以高帶寬從外部存儲器傳輸?shù)?FPGA 的片上配置存儲器中。在不限制部分比特流大小,同時將外部存儲作為共享資源(各種處理器可通過系統(tǒng)總線同時訪問)的條件下,仍然可以達(dá)到Virtex-4最高重配置帶寬。
在系統(tǒng)初始化階段,部分比特流將在運行中被下載到 FPGA 配置存儲中,并從外部的Flash中傳輸?shù)酵獠?DDR-SDRAM。該存儲器與多端口存儲控制器 (MPMC) 相連接,因而成為系統(tǒng)中任何主從處理器都可以訪問的資源??梢允褂?CoreConnect PLBv46 總線等不同類型的總線連接到 MPMC,這些總線可用作通用系統(tǒng)總線,而賽靈思 Cachelink (XCL) 總線則用于 CPU 的快速指令和數(shù)據(jù)緩存。系統(tǒng) CPU (MicroBlaze) 實際上是與這兩個總線相連接的。
不過我們的重配置解決方案是建立在新總線基礎(chǔ)之上的,即專用于快速鏈接外部 DDR-SDRAM 存儲庫和 ICAP 接口之間的原始端口界面 (NPI)。作為我們重配置控制器的組成部分,我們設(shè)計了可用來處理 NPI 協(xié)議的主系統(tǒng)存儲管理單元 (MMU)。外部 DDR-SDRAM(部分比特流)和 ICAP 原始之間的連接需要經(jīng)過一個內(nèi)部 FIFO 存儲器。借助這種方法,我們可以實現(xiàn)兩個不同的定制界面,它們各自擁有獨立的數(shù)據(jù)總線大小和速度,一個與 NPI 協(xié)議耦合,另一個則與 ICAP 協(xié)議進(jìn)行耦合。
FIFO 的寫入端口與 NPI 相連接,并使用 64 位數(shù)據(jù)總線;而 FIFO 的讀取端口則連接到 ICAP,使用 32 位數(shù)據(jù)寬度,這是 ICAP 在 Virtex-4 器件中的最高數(shù)據(jù)寬度。FIFO 的讀取端口和寫入端口(在 NPI 側(cè)和 ICAP 側(cè))的運行頻率為 100MHz。為使傳輸時延降至最低,主系統(tǒng) MMU 負(fù)責(zé)以 64 字(32 位)突發(fā)傳輸向內(nèi)部 FIFO 傳輸配置數(shù)據(jù),從而完成模塊的重配置。這是可接受的最大突發(fā)長度,因而所有的重配置數(shù)據(jù)傳輸都能夠以最低突發(fā)時延完成。在另一側(cè),只要 FIFO 不為空,重配置控制器就能讀取已存儲的 FIFO 數(shù)據(jù),并將其以 32 位格式傳輸給 ICAP 接口。重配置控制器(就是主 MMU)負(fù)責(zé)處理對大型 DDR-SDM 存儲器進(jìn)行直接存儲器存取 (DMA)。為了實現(xiàn),我們定制了一個從MMU,并在其中設(shè)置了多個控制寄存器,將這個MMU掛在PLBv46總線上并由CPU直接控制。
采用這種方式,CPU 僅需做兩件事情:配置在 PRR 中下載的部分比特流的初始地址和大小;向主系統(tǒng) MMU 發(fā)出執(zhí)行指令,以啟動重配置過程。而后,主系統(tǒng) MMU 開始將比特流以 DMA(直接內(nèi)存存儲)的方式直接傳輸給內(nèi)部的 FIFO,隨后再從該 FIFO 傳輸給 ICAP 接口。一旦傳輸完畢,重配置控制器就會通知 CPU。
結(jié)果,即使在 CPU 通過 XCL 或 PLBv46 總線訪問 DDR-SDRAM 的同時,我們也能實現(xiàn)部分比特流傳輸?shù)淖畲笸掏铝?。其最終原因在于 CPU 在內(nèi)部 BM(block-M)高速緩存中運行程序流,將對外部 DDS-SDRAM 的訪問釋放給了重配置控制器。值得重點指出的是,這個為部分比特流和軟件應(yīng)用分配的 DDR-SDRAM 存儲器并非專用資源,而是共享資源。即使如此,該方案與其它現(xiàn)有的重配置控制器方案相比性能也有顯著的改善,因為其能夠?qū)崿F(xiàn) Virtex-4的最大重配置吞吐量(通過 32 位數(shù)據(jù)總線以 100MHz 的頻率或 3.2 Gbps 的速率將部分比特流傳輸給 ICAP)。
實驗結(jié)果
從本質(zhì)上講,文中所述的嵌入式自動指紋識別系統(tǒng)是一種高性能圖像處理應(yīng)用,因為它擁有大量的并行性,且需要實時認(rèn)證響應(yīng)。從人機工程角度上講,此系統(tǒng)可使每位用戶的認(rèn)證時間不超過 2 s或3s。
該設(shè)計流程涉及多個開發(fā)環(huán)路。首先,我們在 PC 平臺上的 MATLAB 的軟件里開發(fā)算法。隨后,我們將軟件代碼用 C 編程語言導(dǎo)入到嵌入式軟件中,并且首先在同一 PC 上執(zhí)行,以確認(rèn)我們能夠獲得同樣的結(jié)果,然后在 FPGA 器件內(nèi)合成的 MicroBlaze 嵌入式微處理器上執(zhí)行。
通過這種方式,Virtex-4 器件可在不使用任何定制硬件協(xié)處理器和不達(dá)到實時性能要求的情況下實施基于 MicroBlaze 的純軟件解決方案。為縮短運行時間,我們根據(jù)任務(wù)概要,下一步工作是引入 PRR,并在上面構(gòu)建各種定制生物識別協(xié)處理器,使用硬件/軟件協(xié)同設(shè)計解決方案。此刻,我們已經(jīng)采用 C 編程語言和 VHDL 硬件描述語言完成了此系統(tǒng)的開發(fā)工作。
我們采用 268x460 像素的 8 位灰度指紋圖像進(jìn)行了一些識別測試。同時,我們在基于 Virtex-4 的 PR 系統(tǒng)上和運行速度為 1.83GHz 的 Intel Core 2 Duo T5600 處理器的個人電腦上也進(jìn)行了相同的測試。然后,我們運行相同的算法,包括純軟件實施方式和軟硬件混合實施方式,以比較登錄和識別階段的性能。
如果不考慮采集工作(由于掃描傳感器的性能限制,需以 5ms 積分時間采集 100 片并在運行中重構(gòu)圖像,故采集時間固定為 500ms),PR 方法可以把運行其他處理任務(wù)所形成的延遲降低到 205ms。與在 PC 上運行純軟件方法的 3,274ms 的延遲相比,PR 方法可提高 16 倍速度。
因此,表 1 說明運用并行和流水線技術(shù)進(jìn)行軟硬件協(xié)同設(shè)計,同時配合低重配置延遲的 PR 技術(shù),明顯實現(xiàn)實時認(rèn)證是可行的。另外,在動態(tài)重配置時,可以指定模塊運行的頻率,這個頻率是由新模塊的特性所決定。在我們的設(shè)計中,所有模塊運行在50MHz或者100MHz的頻率下。
此外,重配置流程一直以 100MHz 運行,在每個時鐘周期里傳輸 32 位比特,從而保證 Virtex-4 上的最低重配置延遲。根據(jù)每個 PRR 硬件環(huán)境的比特流復(fù)雜性,每個重配置流程花費的時間在 0.8ms(例如標(biāo)準(zhǔn)化)和 1.1ms(例如二進(jìn)制化)之間。與生物識別應(yīng)用的總體運行時間相比,該重配置時間可忽略不計。
由于我們已經(jīng)成功完成了概念驗證工作,我們準(zhǔn)備把原型導(dǎo)出到新一代賽靈思低端具有 PR 功能的 28 納米FPGA 器件中(Artix-7 系列)。我們的目標(biāo)是以最低的成本設(shè)計出一款能夠在任何消費類電子產(chǎn)品中嵌入高性能且真正安全的生物識別系統(tǒng)。
評論