數(shù)據(jù)驅(qū)動計算及其應(yīng)用
計算機(jī)體系結(jié)構(gòu)可以分為控制流計算機(jī)和數(shù)據(jù)流計算機(jī)??刂屏饔嬎銠C(jī)又稱為馮o諾依曼計算機(jī),其程序的運算執(zhí)行順序是預(yù)先設(shè)置好的,按照編程者的控制(程序指針)逐條執(zhí)行?,F(xiàn)在實際應(yīng)用的計算機(jī)都使用控制流機(jī)制,而數(shù)據(jù)流計算機(jī)運算的執(zhí)行順序取決于數(shù)據(jù)間的互相依賴關(guān)系和操作數(shù)的有效性,指令間沒有固定的順序,不需預(yù)先設(shè)定,更符合人們的思維習(xí)慣。
數(shù)據(jù)流計算機(jī)又可以分為兩類:數(shù)據(jù)驅(qū)動和需求驅(qū)動。數(shù)據(jù)驅(qū)動計算機(jī)運算執(zhí)行的順序由輸入數(shù)據(jù)的有效性決定,需求驅(qū)動計算機(jī)運算執(zhí)行的順序依賴于數(shù)據(jù)的需求。目前絕大多數(shù)數(shù)據(jù)流計算機(jī)都采用數(shù)據(jù)驅(qū)動計算技術(shù)。
數(shù)據(jù)驅(qū)動是一種不同于傳統(tǒng)馮o諾依曼結(jié)構(gòu)的先進(jìn)計算結(jié)構(gòu),可以簡單方便地挖掘出運算的時間并行性和空間并行性,不需要程序指針和進(jìn)程調(diào)度機(jī)制。使用這種非傳統(tǒng)的計算結(jié)構(gòu)將有助于提高系統(tǒng)的安全性和處理能力。
如圖1所示,分別用馮o諾依曼計算模型和數(shù)據(jù)驅(qū)動計算模型實現(xiàn)下式的運算:
R=frac{AB-CD}{AC+BD}
具體實現(xiàn)如圖1所示:
在數(shù)據(jù)驅(qū)動概念中,運算單元(如加減乘除等運算)稱為節(jié)點,連接節(jié)點之間的通道稱為弧。從圖1可以看出,傳統(tǒng)的馮o諾依曼計算結(jié)構(gòu)使用程序指針控制程序的順序執(zhí)行;而數(shù)據(jù)驅(qū)動計算結(jié)構(gòu)的計算順序只由數(shù)據(jù)的依賴關(guān)系決定,只要數(shù)據(jù)到達(dá)就可以進(jìn)行計算,有效地挖掘了程序的時間并行性和空間并行性,非常適合于并行處理。
數(shù)據(jù)流計算的運算順序不是預(yù)先確定的,而是在程序運行時動態(tài)確定,采用運行時的數(shù)據(jù)依賴性作為運算順序的判定機(jī)制。所以,數(shù)據(jù)流計算機(jī)沒有程序指針,而是直接編譯和運行數(shù)據(jù)流圖。編譯器產(chǎn)生一組操作數(shù);每個操作的結(jié)果有一個或多個目的地;只要操作數(shù)有效,操作將會被安排盡快進(jìn)行。
數(shù)據(jù)驅(qū)動處理器DDMP
數(shù)據(jù)驅(qū)動處理器是基于數(shù)據(jù)驅(qū)動計算模型設(shè)計的、內(nèi)部包含多個處理單元、使用超長自定時流水線和異步電路結(jié)構(gòu)的并行處理器,具有超強(qiáng)的計算能力和極低的功耗。
DDMP內(nèi)部結(jié)構(gòu)
DDMP是Sharp公司開發(fā)的一款數(shù)據(jù)驅(qū)動處理器,內(nèi)部結(jié)構(gòu)如圖2所示,包含10個并行處理單元nPE#0~nPE#9,這些處理單元通過一個高速路由器連接起來,每個處理單元內(nèi)部具有40~60級異步流水線,該流水線全部采用自定時時鐘機(jī)制,該芯片是一個真正的多處理器系統(tǒng)。
DDMP是一款可以商用的處理器,采用0.25μm工藝,性能為8600MOPS,供電電壓為2.5V。在DDMP芯片中,10個基本數(shù)據(jù)驅(qū)動處理單元以線性結(jié)構(gòu)排列,組成多處理單元系統(tǒng),基本處理單元通過數(shù)據(jù)包交換網(wǎng)絡(luò)互連。
DDMP中一個處理單元Nano PE的基本結(jié)構(gòu)圖中,數(shù)據(jù)首先從處理器的輸入端口進(jìn)入處理器,接著發(fā)往合并模塊(M)。到達(dá)匹配存儲器(MM)后被暫時儲存起來,直到另外一個操作數(shù)到達(dá)。如果匹配(另一個操作數(shù)到達(dá)),這兩部分會結(jié)合成一個操作數(shù)據(jù)包(包括操作碼、目的地、顏色標(biāo)志和一對操作數(shù)),被分發(fā)到適當(dāng)?shù)墓δ芴幚韱卧‵P)或者算數(shù)邏輯單元(ALU)進(jìn)行運算。指定的操作完成后,產(chǎn)生一個操作結(jié)果并送往緩沖存儲器(CPS)。最后,分發(fā)單元(D)按目的地將操作結(jié)果分發(fā)到相應(yīng)的處理器或輸出,并將舊目的地址換成新目的地址。
DDMP一個處理單元的內(nèi)部各個模塊(例如MM、FP和CPS)都采用自定時時鐘機(jī)制,進(jìn)行獨立工作。在數(shù)據(jù)處理過程中,不需要任何控制,只需進(jìn)行數(shù)據(jù)匹配即可。需強(qiáng)調(diào)的是在上述實現(xiàn)中,主要功能(例如MM、FP和CPS)完成的任務(wù)是相互獨立的。所以,在這樣的處理器中,不需要使用集中控制機(jī)制來實現(xiàn)運算的協(xié)調(diào),不需要定時器來保證運算的順序,唯一需要的是各功能模塊中適當(dāng)?shù)钠ヅ鋽?shù)據(jù)速率。
DDMP的特點
首先,DDMP數(shù)據(jù)驅(qū)動處理器內(nèi)部具有10個并行的處理單元,具有強(qiáng)大的處理能力,適合圖像處理、網(wǎng)絡(luò)協(xié)議處理等復(fù)雜的應(yīng)用。
其次,DDMP采用異步電路實現(xiàn),功耗極低?,F(xiàn)在大部分處理器都使用同步電路實現(xiàn),同步系統(tǒng)擁有同一個時鐘驅(qū)動,在電路運行過程中,即使是暫時不工作的部分也會隨著時鐘的翻轉(zhuǎn)一起消耗能量。而數(shù)據(jù)驅(qū)動處理器使用異步電路實現(xiàn),沒有統(tǒng)一的時鐘,其中的超長流水線使用自定時機(jī)制,即保證了高性能,又降低了功耗。
另外,DDMP為非馮o諾依曼結(jié)構(gòu)的處理器,其實現(xiàn)原理與目前廣泛使用的馮·諾依曼結(jié)構(gòu)完全不同,使用專用的指令集、具有獨特的專用開發(fā)環(huán)境和圖形化編程語言。其開發(fā)方法和過程與傳統(tǒng)的計算機(jī)有本質(zhì)的區(qū)別。因此,使用傳統(tǒng)技術(shù)的黑客很難對數(shù)據(jù)驅(qū)動計算系統(tǒng)進(jìn)行有效攻擊,從而提高了系統(tǒng)的安全性。
對于數(shù)據(jù)驅(qū)動計算來說,使用圖形化的編程語言更直觀、自然,能夠充分體現(xiàn)出運算中的并行性和數(shù)據(jù)依賴性。DDMP處理器的程序設(shè)計就使用專用的圖形化編程語言,用來編制各種算法的數(shù)據(jù)流圖。軟件開發(fā)界面如圖3所示,不僅能夠進(jìn)行數(shù)據(jù)流圖的編制,還可以進(jìn)行程序的編譯、調(diào)試和仿真。
硬件開發(fā)環(huán)境
為了將編制好的數(shù)據(jù)流圖真正在硬件上調(diào)試和實現(xiàn),需要有相應(yīng)的硬件開發(fā)平臺。目前,DDMP的硬件開發(fā)平臺有兩種,分別基于PCI總線和基于USB接口。DDMP通過PCI接口或USB接口與計算機(jī)通信;可以從計算機(jī)給DDMP和FPGA進(jìn)行初始化、下載程序和輸入數(shù)據(jù),初始化外部存儲器,并得到硬件輸出的計算結(jié)果。
在基于PCI總線的開發(fā)平臺中,DDMP和兩個FPGA組成一個單向的通信環(huán)路,DDMP可以給FPGA1發(fā)送數(shù)據(jù),F(xiàn)PGA1可以給FPGA2發(fā)送數(shù)據(jù),F(xiàn)PGA2可以給DDMP發(fā)送數(shù)據(jù)。DDMP、FPGA1和FPGA2分別帶有外部SDRAM;為了提高外部存儲器的訪問速度,F(xiàn)PGA配有外部SRAM。
基于數(shù)據(jù)驅(qū)動計算的防火墻設(shè)計
數(shù)據(jù)驅(qū)動處理器的并行處理能力強(qiáng)、功耗低、安全性高,適用于圖像和視頻等多媒體處理、網(wǎng)絡(luò)安全與協(xié)議處理等運算復(fù)雜度和并發(fā)性較高的應(yīng)用。
嵌入式防火墻用于保護(hù)主機(jī)安全,要求自身安全性高、體積小、功耗低。DDMP可滿足這些要求。
嵌入式防火墻的基本結(jié)構(gòu)如圖4所示。首先,進(jìn)入主機(jī)的數(shù)據(jù)包被儲存在緩沖區(qū)中;同時,該數(shù)據(jù)包的IP頭和TCP/UDP頭被傳送到動態(tài)包過濾功能模塊中處理。在動態(tài)包過濾模塊中,使用TCP頭來確定該數(shù)據(jù)包是否屬于一個新的連接。如果屬于,則在數(shù)據(jù)表中建立一個新的連接表項;包分類模塊(分類器)使用過濾規(guī)則庫檢查該數(shù)據(jù)包。如果該數(shù)據(jù)包屬于已有連接,則數(shù)據(jù)包狀態(tài)檢測器(SPI)檢測該數(shù)據(jù)包是否為非法狀態(tài)轉(zhuǎn)移。UDP是一種無連接協(xié)議,可以使用IP地址和端口號來建立一個虛擬連接。因此,對于UDP數(shù)據(jù)包,SPI會使主機(jī)更安全。對第四層數(shù)據(jù)包頭部的狀態(tài)檢測之后,只有安全合法的數(shù)據(jù)包進(jìn)入應(yīng)用層過濾器(AF)中,AF檢查數(shù)據(jù)包的內(nèi)容,包括URL或者E-mail附件等等。最后,合法的數(shù)據(jù)包從緩沖區(qū)中提取并通過防火墻。
嵌入式防火墻中各模塊的數(shù)據(jù)依賴關(guān)系如圖5所示,包括進(jìn)程創(chuàng)建、執(zhí)行和刪除、分類器、數(shù)據(jù)包狀態(tài)監(jiān)測器SPI和應(yīng)用層過濾器APF、高速數(shù)據(jù)包緩沖等等。把這些數(shù)據(jù)流變成數(shù)據(jù)流圖,裝入DDMP處理器,就是數(shù)據(jù)驅(qū)動防火墻系統(tǒng)的設(shè)計要點。
通過軟件仿真和硬件測試比較,基于DDMP數(shù)據(jù)驅(qū)動處理器的嵌入式防火墻的SPI模塊超過千兆的包處理能力,可滿足千兆以太網(wǎng)的需求。
總結(jié)
數(shù)據(jù)驅(qū)動計算以及數(shù)據(jù)驅(qū)動處理器,具有并行性高、處理能力強(qiáng)、功耗低、安全性能好的優(yōu)點,雖然目前還未廣泛使用,但相關(guān)的研究和開發(fā)工作一直在進(jìn)行和發(fā)展。本文介紹的DDMP處理器就是基于數(shù)據(jù)驅(qū)動原理、采用異步電路和自定時流水線技術(shù)的多核心處理器,已經(jīng)在圖像處理、網(wǎng)絡(luò)安全等方面取得了較好的研究成果。
評論