利用TMS320C6201芯片進(jìn)行圖像壓縮

作者：時(shí)間：2007-03-09 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

摘要：介紹了利用TMS320C6201 DSP芯片進(jìn)行實(shí)時(shí)圖像壓縮的軟件設(shè)計(jì)。結(jié)合該芯片的編程特點(diǎn)介紹了壓縮算法，并給出了部分關(guān)鍵程序，具有一定的參考價(jià)值。關(guān)鍵詞：圖像壓縮 C6201 FDCT變換霍夫曼編碼圖像中含有豐富的信息，在現(xiàn)代科技中將圖像作為一種探測(cè)手段，正受到越來(lái)越廣泛的青睞。有很多探測(cè)設(shè)備，采用掃描成像儀器作為前端探測(cè)器。作為一種很常見(jiàn)的情況，成像儀器采集到的圖像要通過(guò)無(wú)線信道進(jìn)行發(fā)送。但是，圖像數(shù)據(jù)通常都是海量數(shù)據(jù)，無(wú)線信道的傳輸帶寬無(wú)法滿足要求，必須對(duì)圖像進(jìn)行壓縮處理，才能通過(guò)無(wú)線信道進(jìn)行傳輸。

實(shí)現(xiàn)圖像實(shí)時(shí)無(wú)線傳輸必須研制專門(mén)的圖像壓縮，該壓縮器須滿足如下要求：（１）圖像實(shí)時(shí)壓縮?鴉（２）能夠較好地保存圖像質(zhì)量。筆者以ＴＩ公司的高速ＤＳＰ芯片ＴＭＳ３２０Ｃ６２０１為核心的數(shù)字信號(hào)處理板作為圖像壓縮器的硬件平臺(tái)，通過(guò)自行開(kāi)發(fā)的壓縮程序，實(shí)現(xiàn)了圖像的實(shí)時(shí)壓縮。

１ 數(shù)字信號(hào)處理板的硬件功能框圖 數(shù)字信號(hào)處理板的硬件功能框圖如圖１所示。ＴＭＳ３２０Ｃ６２０１是一種高性能的定點(diǎn)數(shù)字信號(hào)處理器。工作頻率為２００ＭＨｚ時(shí)，每個(gè)指令周期為５ｎｓ，運(yùn)算速度可達(dá)１６００ＭＩＰＳ；具有ＶＬＩＷ(甚長(zhǎng)指令集)體系結(jié)構(gòu)，每周期８?jìng)€(gè)３２ｂｉｔ的指令并行執(zhí)行；８?jìng)€(gè)獨(dú)立的功能單元，有兩個(gè)１６ｂｉｔ乘法器和６個(gè)算術(shù)邏輯單元；采用加載存儲(chǔ)體系結(jié)構(gòu)，數(shù)據(jù)在多處理單元之間的傳輸依靠３２個(gè)３２ｂｉｔ的通用寄存器。Ｃ６０００的存儲(chǔ)器尋址空間為３２ｂｉｔ,片內(nèi)有１Ｍｂｉｔ的ＳＲＡＭ。片內(nèi)ＲＡＭ被分為兩塊：一是內(nèi)部程序／ｃａｃｈｅ存儲(chǔ)器，二是內(nèi)部數(shù)據(jù)存儲(chǔ)器。３２ｂｉｔ外部存儲(chǔ)器接口（ＥＭＩＦ）可與不同存儲(chǔ)器接口，可方便地配置不同速度、不同容量、不同復(fù)雜程度的存儲(chǔ)器。此外，Ｃ６０００還有兩通道Ｂｏｏｔ－ｌｏａｄｉｎｇＤＭＡ處理器、１６ｂｉｔ的主機(jī)接口ＨＰＩ、兩個(gè)多通道緩沖串口（ＭｃＢＳＰ），并且其片內(nèi)鎖相環(huán)（ＰＬＬ）時(shí)鐘發(fā)生器，可以對(duì)輸入時(shí)鐘進(jìn)行不同的倍頻處理。這種芯片用來(lái)處理圖像壓縮這種運(yùn)算密集型的工作是非常合適的。功能框圖的其它部分不再做介紹。圖3 圖像壓縮器的工作過(guò)程方框圖２圖像壓縮算法圖像壓縮中的圖像有彩色和灰度之分?？紤]到彩色圖像和灰度圖像的壓縮類似，且大多數(shù)的掃描成象設(shè)備掃的是灰度圖像，所以僅以灰度圖像的壓縮為例介紹ＤＳＰ上的圖像壓縮。圖像壓縮算法原理圖如圖２所示。圖中，首先將原始灰度圖像分為８%26;#215;８的圖塊，然后對(duì)每一圖像塊進(jìn)行ＦＤＣＴ變換，再將變換得到的ＤＣＴ系數(shù)使用量化表進(jìn)行量化。量化后可得到如下形式的數(shù)據(jù)： (x)是不為零的數(shù)據(jù)） x x x x 0 0 0 0 x x x 0 0 0 0 0 x x 0 0 0 0 0 0 x 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 該數(shù)據(jù)在存儲(chǔ)器中存放的順序如下： z[0] z[1] z[2] z[3] z[4] x[5] z[6] z[7] z[8] z[9] z[10] z[11] z[12] z[13] z[14] z[15] z[16] z[17] z[18] z[19] z[10] z[21] z[22] z[23] z[24] z[25] z[26] z[27] z[28] z[29] z[30] z[31] z[32] z[33] z[34] z[35] z[36] z[37] z[38] z[39] z[40] z[41] z[42] z[43] z[44] z[45] z[46] z[47] z[48] z[49] z[50] z[51] z[52] z[53] z[54] z[55] z[56] z[57] z[58] z[59] z[60] z[61] z[62] z[63] 在存儲(chǔ)器中，非零數(shù)據(jù)和零數(shù)據(jù)交替存放，不便于壓縮，所以要對(duì)數(shù)據(jù)進(jìn)行重排列，數(shù)據(jù)的重排列形式如下： z[0] z[1] z[5] z[6] z[14] z[15] z[27] z[28] z[2] z[4] z[7] z[13] z[16] z[26] z[29] z[42] z[3] z[8] z[12] z[17] z[25] z[30] z[41] z[43] z[9] z[11] z[18] z[24] z[31] z[40] z[44] z[53] z[10] z[19] z[23] z[32] x[39] z[45] z[52] z[54] z[20] z[22] z[33] z[38] z[46] z[51] z[55] z[60] z[21] z[34] z[37] z[47] z[50] z[56] z[59] z[61] z[35] z[36] z[48] z[49] z[57] z[58] z[62] z[63] 變換完成后再根據(jù)編碼表對(duì)ＤＣ系數(shù)和ＡＣ系數(shù)分別進(jìn)行編碼，就完成了圖像的壓縮。圖4 量化表３利用ＤＳＰ芯片進(jìn)行圖像壓縮３．１圖像壓縮器的工作過(guò)程圖像壓縮器工作過(guò)程方框圖如圖３所示。圖像數(shù)據(jù)通過(guò)Ｉ／Ｏ接口送入數(shù)字信號(hào)處理板，由ＤＳＰ芯片中的ＤＭＡ控制器負(fù)責(zé)將數(shù)據(jù)放入輸入緩沖區(qū)中，ＤＳＰ對(duì)緩沖的圖像數(shù)據(jù)進(jìn)行壓縮后，通過(guò)ＨＰＩ接口將壓縮數(shù)據(jù)送出。３．２編程介紹這里主要介紹壓縮參數(shù)初始化和壓縮程序。３．２．１壓縮參數(shù)初始化由圖２所示的圖像壓縮算法可知，圖像壓縮過(guò)程中需要量化表和編碼表，量化表如圖４（ａ）所示。

量化操作就是把８%26;#215;８圖塊進(jìn)行ＦＤＣＴ變換，將變換后的的ＤＣＴ系數(shù)用量化表元素來(lái)除。由于ＤＳＰ中有硬件乘法器和移位指令，為了充分提高程序的執(zhí)行速度，應(yīng)該將除法運(yùn)算轉(zhuǎn)化為乘法運(yùn)算和移位運(yùn)算，對(duì)上面的量化表元素逐個(gè)求倒數(shù)并用１６進(jìn)制表示，如圖４（ｂ）所示。編碼表有兩個(gè)，一個(gè)是直流差值編碼表，另一個(gè)是交流系數(shù)編碼表，如圖５所示。編碼表中的最左端的一列代表中間碼字，具體編碼時(shí)要根據(jù)８ｘ８圖塊的ＤＣＴ系數(shù)產(chǎn)生中間碼字，再由中間碼字查編碼表，將中間碼字轉(zhuǎn)換為霍夫曼碼，完成編碼。在ＤＳＰ程序初始化階段要生成量化表和編碼表，量化表可直接將圖４（ｂ）所示的量化表元素代入來(lái)得到,編碼表就要按照霍夫曼碼的編碼方法生成霍夫曼碼來(lái)得到。由于在壓縮過(guò)程中要頻繁地查找編碼表，因此，編碼表的組織形式對(duì)程序的執(zhí)行效率影響很大。３．２．２壓縮程序圖像壓縮包括ＦＤＣＴ變換、標(biāo)量量化、Ｚｉｇｚａｇ掃描和編碼等幾個(gè)步驟，下面分別介紹。３．２．２．１ＦＤＣＴ變換ＤＣＴ變換公式如下：

式中，Cu,Cv=

具體壓縮的時(shí)候要采用ＤＣＴ變換的快速算法來(lái)加快程序的運(yùn)行速度，將二維的ＤＣＴ變換分解為兩個(gè)一維的ＤＣＴ變換，可以有效地降低計(jì)算量。ＣＣＳ２．０(ＣｏｄｅＣｏｍｐｏｓｅｒＳｔｕｄｉｏ)中提供了一個(gè)成熟的Ｃ語(yǔ)言函數(shù)庫(kù)，里面包含了進(jìn)行ＦＤＣＴ變換的函數(shù)。函數(shù)原型如下：ｖｏｉｄｆｄｃｔ＿８%26;#215;８(ｓｈｏｒｔ *ｄｃｔ＿ｄａｔａ, ｕｎｓｉｇｎｅｄｎｕｍ＿ｆｄｃｔｓ)；函數(shù)中ｄｃｔ＿ｄａｔａ指針指向待變換的圖像數(shù)據(jù)，

ｎｕｍ＿ｆｄｃｔｓ是進(jìn)行ＤＣＴ變換的圖像塊的數(shù)目。該函數(shù)可以對(duì)一大塊連續(xù)存放的圖像塊進(jìn)行ＤＣＴ變換，特別針對(duì)ＴＭＳ３２０Ｃ６２０１ＤＳＰ芯片的特點(diǎn)進(jìn)行了優(yōu)化?？紤]到存儲(chǔ)器的等待時(shí)間和指令的并行等問(wèn)題，執(zhí)行效率非常高，具體的程序開(kāi)銷可以通過(guò)如下公式計(jì)算：時(shí)鐘周期數(shù)＝４８＋１６０*ｎｕｍ＿ｆｄｃｔｓ; 要在自己的工程中使用這個(gè)函數(shù)，必須把ｉｍｇ６２ｘ．ｌｉｂ函數(shù)庫(kù)添加到工程中，并且在主程序文件中包含ｆｄｃｔ＿８%26;#215;８．ｈ頭文件。３．２．２．２標(biāo)量量化所謂標(biāo)量量化就是對(duì)８%26;#215;８圖像塊的ＤＣＴ變換系數(shù)使用量化表逐個(gè)相除并四舍五入。ＣＣＳ２．０提供了一個(gè)量化函數(shù)，其原型如下：ｖｏｉｄｑｕａｎｔｉｚｅ ( ｓｈｏｒｔ *ｄａｔａ, ／* Ｄａｔａｔｏｂｅｑｕａｎｔｉｚｅｄ． *／ｉｎｔｎｕｍ＿ｂｌｋｓ, ／*Ｎｕｍｂｅｒｏｆ６４－ｅｌｅｍｅｎｔｂｌｏｃｋｓ．?*／ｉｎｔｂｌｋ＿ｓｉｚｅ, ／*Ｂｌｏｃｋｓｉｚｅ (ｍｕｌｔｉｐｌｅｏｆ８)． *／ｃｏｎｓｔｓｈｏｒｔ *ｒｅｃｉｐ＿ｔｂｌ, ／*Ｑｕａｎｔ．ｖａｌｕｅｓ (ｒｅｃｉｐｒｏｃａｌｓ)． *／ｉｎｔｑ＿ｐｔ／*Ｑ－ｐｏｉｎｔｏｆＱｕａｎｔｖａｌｕｅｓ．*／ ); 將圖４（ｂ）所示的量化表元素代入程序，ｂｌｋ＿ｓｉｚｅ為６４，ｑ＿ｐｔ為１６，ｄａｔａ指向量化數(shù)據(jù)，即可進(jìn)行快速的量化。該程序同樣經(jīng)過(guò)了優(yōu)化，具體的程序開(kāi)銷可按如下公式計(jì)算：時(shí)鐘周期數(shù)＝２５＋(ｂｌｋ＿ｓｉｚｅ／１６)*４＋ｎｕｍ＿ｂｌｋｓ*１２) 該函數(shù)同樣包含在ｉｍｇ６２ｘ．ｌｉｂ庫(kù)中，

程序中應(yīng)包含ｑｕａｎｔｉｚｅ．ｈ頭文件。３．２．２．３ＺｉｇＺａｇ掃描ＺｉｇＺａｇ掃描就是對(duì)數(shù)據(jù)進(jìn)行重排列。該部分功能簡(jiǎn)單、運(yùn)算量也不大，但是對(duì)存儲(chǔ)器的訪問(wèn)非常頻繁，而且影響處理器執(zhí)行速度的主要是對(duì)存儲(chǔ)器的訪問(wèn)速度。一般情況下，ＣＰＵ訪問(wèn)內(nèi)部存儲(chǔ)器需要４個(gè)時(shí)鐘周期，訪問(wèn)外部存儲(chǔ)器的速度要比內(nèi)部存儲(chǔ)器的速度慢得多，具體情況應(yīng)根據(jù)實(shí)際使用的外部存儲(chǔ)器的類型而定。由于ＴＭＳ３２０６２０１ＤＳＰ芯片每秒鐘最多可以執(zhí)行８條指令，如果讓ＤＳＰ芯片經(jīng)常處于等待狀態(tài)是非常大的浪費(fèi)。解決該問(wèn)題的最有效的辦法是充分利用數(shù)據(jù)總線的寬度并讓軟件進(jìn)行流水線執(zhí)行。ＴＭＳ３２０Ｃ６２０１的數(shù)據(jù)總線寬度是３２位，一般情況下ＤＣＴ系數(shù)使用一個(gè)短整型數(shù)，只有１６位寬度，如果每次同時(shí)從存儲(chǔ)器中讀寫(xiě)兩個(gè)數(shù)，則可以減少一半訪問(wèn)存儲(chǔ)器的次數(shù)。由于ＴＭＳ３２０Ｃ６２０１有８?jìng)€(gè)功能單元，ＣＰＵ可以在處理當(dāng)前數(shù)據(jù)的同時(shí)去存儲(chǔ)器取下一個(gè)數(shù)據(jù)。通過(guò)流水線，ＣＰＵ可以做到每周期訪問(wèn)一次存儲(chǔ)器，這樣可以使程序的執(zhí)行效率大大提高。一般情況下軟件的流水線安排是由編譯優(yōu)化系統(tǒng)完成的，程序員所要做的是讓自己的程序符合流水線執(zhí)行的要求，并且讓優(yōu)化后的流水線周期盡量短。流水線的要求主要有以下幾點(diǎn)：（１）程序所使用的寄存器數(shù)目不能超過(guò)３２個(gè)；（２）程序所使用的條件寄存器數(shù)目不能超過(guò)５個(gè)；（３）程序中不能含有分支語(yǔ)句，可能的話盡量使用條件指令；（４）一個(gè)寄存器中的變量值不能存放太長(zhǎng)時(shí)間，實(shí)在不行就換個(gè)寄存器存放；（５）程序所使用的ＣＰＵ左右兩邊的資源盡量平衡，一般情況下，平衡的資源使用換來(lái)的是比較短的流水線周期；（６）程序中包含的指令不能太多。對(duì)于用線性匯編語(yǔ)言編寫(xiě)的程序，應(yīng)該在程序編寫(xiě)時(shí)注意這些問(wèn)題。對(duì)一個(gè)用Ｃ語(yǔ)言編寫(xiě)的程序，可以通過(guò)觀察編譯系統(tǒng)產(chǎn)生的優(yōu)化后的匯編語(yǔ)言文件來(lái)獲得相關(guān)的信息。具體程序略。３.２.２.４編碼編碼部分主要是對(duì)量化后的ＤＣＴ系數(shù)進(jìn)行處理，主要利用了相鄰圖像塊之間的相關(guān)性、量化后的ＤＣＴ系數(shù)矩陣的連零特性和霍夫曼編碼應(yīng)進(jìn)行壓縮編碼。該部分主要涉及了查表、移位運(yùn)算和存儲(chǔ)器讀寫(xiě)。ＤＣ差值／ＡＣ系數(shù)等級(jí)表如圖６所示。

ＤＣ系數(shù)的編碼流程圖如圖７所示。ＡＣ系數(shù)的編碼流程圖如圖８所示。其中，ＺＺ（Ｋ）編碼是對(duì)不為零的ＡＣＤＣＴ系數(shù)進(jìn)行編碼，編碼方法可參考ＤＣ差值編碼。由于在ＡＣ編碼過(guò)程當(dāng)中分支語(yǔ)句比較多，為了程序的流水線執(zhí)行，同時(shí)為了指令的并行性，大量地使用了條件指令。但是應(yīng)該注意，在ＴＭＳ３２０Ｃ６２０１中只有Ａ１、Ａ２、Ｂ０、Ｂ１、Ｂ２五個(gè)條件寄存器，不可能滿足所有的需要，因此一定要盡量簡(jiǎn)化程序。在實(shí)際使用中，使用該壓縮器壓縮一幅５１２%26;#215;５１２的灰度圖像需要的時(shí)間不到５５ｍｓ，配合適當(dāng)?shù)臄?shù)據(jù)接口可滿足對(duì)數(shù)據(jù)率為３２Ｍｂｉｔ／ｓ的掃描圖像進(jìn)行實(shí)時(shí)壓縮。

新聞中心

利用TMS320C6201芯片進(jìn)行圖像壓縮

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)