基于四核DSP的視頻交通檢測(cè)系統(tǒng)設(shè)計(jì)方案

作者：時(shí)間：2012-05-04 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

本文引用地址：http://www.ex-cimer.com/article/257538.htm

2.2 4×DSP并行系統(tǒng)結(jié)構(gòu)

圖像處理算法靈活多樣，而且還在不斷地迅速發(fā)展，為滿足日益復(fù)雜的圖像處理算法和逐漸變大的圖像規(guī)模，出于通用性考慮，系統(tǒng)中處理器之間需要靈活的、高帶寬的通信和握手機(jī)制。圖2給出了所設(shè)計(jì)的并行系統(tǒng)框圖，采用4顆TMS320C6416芯片，能較快完成以前一臺(tái)計(jì)算機(jī)需要長時(shí)間才能完成的任務(wù)。

從圖2可以看出，該系統(tǒng)以緊耦合系統(tǒng)和松耦合系統(tǒng)為基礎(chǔ)構(gòu)架而設(shè)計(jì)的，結(jié)合了兩者的優(yōu)點(diǎn)。緊耦合系統(tǒng)通過共享的存儲(chǔ)器來實(shí)現(xiàn)處理器之間的通信，處理器之間的聯(lián)系比較緊密。松耦合系統(tǒng)中每個(gè)處理器節(jié)點(diǎn)帶有存儲(chǔ)器[5]，處理器之間通過消息傳遞的方式來相互通信。該系統(tǒng)每個(gè)節(jié)點(diǎn)即是一臺(tái)完整的DSP處理器并且?guī)в蠸DRAM存儲(chǔ)器，屬于松耦合系統(tǒng)；而所有節(jié)點(diǎn)共享一個(gè)同步 4口SRAM存儲(chǔ)器，構(gòu)成的整體是一個(gè)單一計(jì)算資源，屬于緊耦合系統(tǒng)。因此，該系統(tǒng)具有緊耦合系統(tǒng)和松耦合系統(tǒng)的優(yōu)點(diǎn)，相比于前面兩者具有增強(qiáng)的可用性和更好的性能。

2.3同步4口SRAM通道劃分

將容量為128 KB的同步4口SRAM劃分為7個(gè)區(qū)域(見圖3)，除一個(gè)公共區(qū)域外，其余6個(gè)區(qū)域用于DSP之間的互相通信。根據(jù)同步4口SRAM的特點(diǎn)，這6個(gè)區(qū)域可以同時(shí)使用，即這6個(gè)區(qū)域?yàn)镈SP之間的通信構(gòu)建了獨(dú)立“通道”，通道之間相互獨(dú)立、互不干擾并可以同時(shí)使用。同步4口SRAM的總線頻率工作為133 MHz，數(shù)據(jù)寬度為16bit，其帶寬為266 MB。由于設(shè)計(jì)的對(duì)稱性，無論采用乒乓法還是熱土豆法來測(cè)量點(diǎn)到點(diǎn)的通信開銷，其結(jié)果都是一樣的。

2.4系統(tǒng)工作原理和性能分析

數(shù)字視頻數(shù)據(jù)存入視頻緩沖器FIFO，這一速度可達(dá)266Mb/s。在DSP-1的DMA控制器作用下，前端數(shù)據(jù)緩沖FIFO中的數(shù)據(jù)被不斷地轉(zhuǎn)移到同步四口SRAM中，然后各個(gè)DSP分別或者同時(shí)讀取要處理的數(shù)據(jù)。因?yàn)榍岸薋IFO和同步四口SRAM都掛接在DSP-1的獨(dú)立接口上，因此數(shù)據(jù)分配過程不會(huì)打擾到DSP-1本身算法的執(zhí)行，甚至不會(huì)干擾到DSP-1對(duì)其外接的SDRAM存儲(chǔ)器的讀寫操作。各個(gè)DSP協(xié)同完成整個(gè)圖像處理算法，過程中可能會(huì)存在相互之間的通信或者數(shù)據(jù)交換，這同樣通過同步四口SRAM完成。初始化時(shí)，各個(gè)DSP將程序分別下載到各自的代碼空間和數(shù)據(jù)空間；對(duì)數(shù)據(jù)處理完成后，再不斷地通過PCI總線將處理的結(jié)果分別送出。此外，系統(tǒng)上留有足夠的擴(kuò)展接口，方便對(duì)系統(tǒng)的進(jìn)一步擴(kuò)展。

采用4個(gè)TI公司高端數(shù)字信號(hào)處理器TMS320C6416的并行圖像處理系統(tǒng)。單個(gè)的數(shù)字信號(hào)處理器TMS320C6416的頻率為600MHz，處理器的運(yùn)算能力4800MIPS，處理器的本地SDRAM為32 MB。現(xiàn)在的4×DSP系統(tǒng)，具有處理器的最高性能19 200 MIPS，系統(tǒng)具有總SDRAM為128 MB+128 KB。另外，考慮加速比和效率[6-7]。加速比指對(duì)某個(gè)特定的應(yīng)用，使用并行算法的執(zhí)行速度相對(duì)于串行算法的執(zhí)行速度所快的倍數(shù)；并行系統(tǒng)的效率則指加速比與處理器個(gè)數(shù)之比。根據(jù)Amdahal定律[4]，加速比會(huì)隨著處理器數(shù)目的增加而提高，但是存在極限，而且這一極限是由問題本身所決定的，因?yàn)殡S著處理器數(shù)目的增加，額外開銷會(huì)越來越大。對(duì)一幅 1024×2048像素，每個(gè)像素1B的圖像進(jìn)行FFT運(yùn)算，單一處理器運(yùn)算時(shí)間為82 715.020 ms，4個(gè)處理器運(yùn)算時(shí)間為20 703.770 ms，可得加速比為3.995，并行系統(tǒng)的效率為99.88%?？梢姡到y(tǒng)性能得到大幅提升。

隨著數(shù)字信號(hào)處理器的飛速發(fā)展，圖像處理算法更加復(fù)雜，多個(gè)DSP并行協(xié)同工作的構(gòu)架將越來越多地被采用，應(yīng)用會(huì)更加廣泛。為滿足日益復(fù)雜的圖像處理算法和不斷增加圖像規(guī)模，采用4顆TMS320C6416芯片，設(shè)計(jì)了一套通用的高性能并行圖像處理系統(tǒng)，能較快完成以前1臺(tái)計(jì)算機(jī)需要長時(shí)間才能完成的任務(wù)。該系統(tǒng)可以作為一個(gè)通用的視頻檢測(cè)的硬件平臺(tái)，實(shí)現(xiàn)多種檢測(cè)算法，具有很好的可擴(kuò)展性，容易在此基礎(chǔ)上進(jìn)行二次開發(fā)。實(shí)驗(yàn)和應(yīng)用結(jié)果表明，該系統(tǒng)能夠?qū)崟r(shí)地計(jì)算交通信息參數(shù)，并實(shí)現(xiàn)圖像和數(shù)據(jù)的網(wǎng)絡(luò)傳輸，具有強(qiáng)大的視頻處理能力和網(wǎng)絡(luò)功能。總之，該方案靈活、簡(jiǎn)單，能夠滿足實(shí)時(shí)性的要求，實(shí)踐證明可應(yīng)用于車流量檢測(cè)系統(tǒng)中以提高了系統(tǒng)的整體性能。

新聞中心

基于四核DSP的視頻交通檢測(cè)系統(tǒng)設(shè)計(jì)方案

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)