自適應(yīng)算術(shù)編碼的FPGA實現(xiàn)
算術(shù)編碼是一種無失真的編碼方法,能有效地壓縮信源冗余度,屬于熵編碼的一種。算術(shù)編碼的一個重要特點就是可以按分?jǐn)?shù)比特逼近信源熵,突破了Haffman編碼每個符號只不過能按整數(shù)個比特逼近信源熵的限制。對信源進(jìn)行算術(shù)編碼,往往需要兩個過程,第一個過程是建立信源概率表,第二個過程是對信源發(fā)出的符號序列進(jìn)行掃描編碼。而自適應(yīng)算術(shù)編碼在對符號序列進(jìn)行掃描的過程中,可一次完成上述兩個過程,即根據(jù)恰當(dāng)?shù)母怕使烙嬆P秃彤?dāng)前符號序列中各符號出現(xiàn)的頻率,自適應(yīng)地調(diào)整各符號的概率估計值,同時完成編碼。盡管從編碼效率上看不如已知概率表的情況,但正是由于自適應(yīng)算術(shù)編碼具有實時性好、靈活性高、適應(yīng)性強(qiáng)等特點,在圖像壓縮、視頻圖像編碼等領(lǐng)域都得到了廣泛的應(yīng)用。
現(xiàn)場可編程門陣列(FPGA)是一種新興的可編程邏輯器件,具有更高的密度、更快的工作速度和更大的編程靈活性,被廣泛應(yīng)用于各種電子類產(chǎn)品中。而硬件描述語言(HDL)是一種快速的電路設(shè)計工具,其功能涵蓋了電路描述、電路合成、電路仿真等的三大電路設(shè)計工作。VHDL是HDL的一種,因其簡單易懂而被廣泛使用。本文采用VHDL編程實現(xiàn)了自適應(yīng)算術(shù)編碼,為算術(shù)編碼器的硬件實現(xiàn)提供了借鑒。
1 算術(shù)編碼的基本原則[1]
實現(xiàn)算術(shù)編碼首先需要知道信源發(fā)出每個符號的概率大小,然后再掃描符號序列,依次分割相應(yīng)的區(qū)間,最終得到符號序列所對應(yīng)的碼字。整個編碼需要兩個過程,即概率模型建立過程和掃描編碼過程。
算術(shù)編碼的基本原理是:根據(jù)信源可能發(fā)現(xiàn)的不同符號序列的概率,把[0,1]區(qū)間劃分為互不重疊的子區(qū)間,子區(qū)間的寬度恰好是各符號序列的概率。這樣信源發(fā)出的不同符號序列將與各子區(qū)間一一對應(yīng),因此每個子區(qū)間內(nèi)的任意一個實數(shù)都可以用來表示對應(yīng)的符號序列,這個數(shù)就是該符號序列所對應(yīng)的碼字。顯然,一串符號序列發(fā)生的概率越大,對應(yīng)的子區(qū)間就越寬,要表達(dá)它所用的比特數(shù)就減少,因而相應(yīng)的碼字就越短。
圖1給出一個實現(xiàn)算術(shù)編碼的示例。要編碼的是一個來自四符號信源{A,B,C,D}的由五個符號組成的符號序列:ABBCD。假設(shè)已知各信源符號的概率分別為:P(A)=0.2,P(B)=0.4,P(C)=0.2,P(D)=0.2。編碼時,首先根據(jù)各個信源符號的概率將區(qū)間[0,1]。分成四個子區(qū)間。符號A對應(yīng)[0,0.2],符號B對應(yīng)[0.2,0.6],符號C對應(yīng)[0.6,0.8],符號D對應(yīng)[0.8,1.0]。符號序列中第一個符號是A,其對應(yīng)的區(qū)間為[0,0.2],接下來將這個區(qū)間擴(kuò)展為整個高度,再根據(jù)各個信源符號的概率將這個間擴(kuò)展為整個高度,再根據(jù)各個信源符號的概率將這個新區(qū)間分成四段;第二個符號是B,它對應(yīng)新的子區(qū)間的第二個子區(qū)間,即對應(yīng)區(qū)間[0.04,0.12];再將該區(qū)間擴(kuò)展為整個高度,再根據(jù)這個過程直接最后一個符號得到一個區(qū)間[0.08032,0.0816],這樣該區(qū)間內(nèi)的任何一個實數(shù)就可以表示整個符號序列,如0.081。
2 自適應(yīng)算術(shù)編碼的基本原理
自適應(yīng)算術(shù)編碼在一次掃描中可完成兩個過程,即概率模型建立過來和掃描編碼過程。
自適應(yīng)算術(shù)編碼在掃描符號序列前并不知道各符號的統(tǒng)計概率,這時假定每個符號的概率相等,并平均分配區(qū)間[0,1]。然后在掃描符號序列的過程中不斷調(diào)整各個符號的概率。同樣假定要編碼的是一個來自四符號信源{A,B,C,D}的五個符號組成的符號序列:ABBCD。編碼開始前首先將區(qū)間[0,1]等分為四個子區(qū)間,分別對應(yīng)A,B,C,D四個符號。掃描符號序列,第一個符號是A,對應(yīng)區(qū)間為[0,0.25],然后改變各個符號的統(tǒng)計概率,符號A的概率為2/5,符號B的概率為1/5,符號C的概率為1/5,符號D的概率為1/5,再將區(qū)間[0,0.25]等分為五份,A占兩份,其余各占一份。接下來對第二個符號B進(jìn)行編碼,對應(yīng)的區(qū)間為[0.1,0.15],再重復(fù)前面的概率調(diào)整和區(qū)間劃分過程。具體的概率調(diào)整見表1。
表1 自適應(yīng)算術(shù)編碼的概率調(diào)整
概率 |
A |
B |
C |
D |
初始 |
1/4 |
1/4 |
1/4 |
1/4 |
傳輸A 后 |
2/5 |
1/5 |
1/5 |
1/5 |
傳輸B 后 |
2/6 |
2/6 |
1/6 |
1/6 |
傳輸B 后 |
2/7 |
3/7 |
1/7 |
1/7 |
傳輸C 后 |
2/8 |
3/8 |
2/8 |
1/8 |
傳輸D 后 |
2/9 |
3/9 |
2/9 |
2/9 |
隨著符號序列中符號個數(shù)的不斷增多,自由適應(yīng)算術(shù)編碼估計得到的各符號的概率將趨于各符號的真實概率。
3 自適應(yīng)算術(shù)編碼的FPGA 實現(xiàn)[2]
3.1 總體設(shè)計
在利用FPGA實現(xiàn)自適應(yīng)算術(shù)編碼的過程中,首先遇到的問題就是將浮點運(yùn)算轉(zhuǎn)化為定點運(yùn)算,即將[0,1]區(qū)間的一個小數(shù)映射為一個便于硬件實現(xiàn)的定點數(shù)??紤]到硬件實現(xiàn)的簡便性,本文中將[0,1]之間的浮點數(shù)與[0,256]之間的定點數(shù)對應(yīng)。相應(yīng)的對應(yīng)關(guān)系如表2所示。
表2 浮點與定點之間的關(guān)系
浮點 |
0 |
0.2 |
0.5 |
0.7 |
1 |
定點 |
0 |
51 |
128 |
179 |
256 |
編碼器在實現(xiàn)編碼的整個過程中按照耦合弱、聚合強(qiáng)的原則分為四個模塊:修改碼表、計算確定區(qū)間、并行編碼、串行輸出。四個模塊相對獨立,通過輸入、輸出信號使其構(gòu)成一個整體。系統(tǒng)的頂層結(jié)構(gòu)如圖2所示。
3.2 碼表的設(shè)計及修改自適應(yīng)算術(shù)編碼器可以在許多場合中得到應(yīng)用。
本文實現(xiàn)的自適應(yīng)算術(shù)編碼器應(yīng)用在采用6符號對小波變換系數(shù)進(jìn)行零樹編碼的小波域視頻編碼中[3],因此設(shè)計的碼表中含有六個符號。這樣根據(jù)自適應(yīng)算術(shù)編碼的基本原理,將區(qū)間分成六個子區(qū)間,整個區(qū)間含水量有七個分割點。所以碼表可以用七個8位寄存器表示。初始時設(shè)定等概率,這時七個寄存器可以順序地存儲0到6這七個數(shù),即每個子區(qū)間的數(shù)值為1。隨著符號不斷地輸入,自適應(yīng)地修改碼表,并且在修改碼表的過程中時刻要保持寄存器中的數(shù)值是遞增的。
修改碼表時,首先判斷輸入符號,確定其所在區(qū)間,同時為后續(xù)模塊輸出該子區(qū)間的兩個端點值l_count和h_count以及碼表的最后一個端點值scale,然后進(jìn)行碼表的修改:將當(dāng)前符號所在區(qū)間之后的所有端點值都加1,即當(dāng)前區(qū)間及后面所有子我間的h_count=h_count+1,這樣即完成了碼表的修改。在數(shù)值不斷累加過程中,寄存器中的數(shù)值為255時,需要對每一個寄存器中的值都取半,并同時對相鄰的兩個寄存器中的值進(jìn)行比較,時刻保持?jǐn)?shù)值是遞值的。這樣,處理前后的概率十分接近,對壓縮比影響不大。修改碼表模塊在輸出h_count、l_count和scale之后,后面的計算子區(qū)間的模塊即可進(jìn)行計算;而修改碼表模塊在輸出h_count、l_count和scale之后,亦可進(jìn)行碼表的修改。因此,這兩個操作可以采用并行處理的方法實現(xiàn),極大地節(jié)省了所用的時鐘周期,相應(yīng)地提高了速度,達(dá)到了優(yōu)化的目的。表3給出了輸入符號為3(對應(yīng)于寄存器2與寄存器3之間的區(qū)間)時碼表的修改過程。
表3 碼表修改前后對照表
寄存器 |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
修改前 |
0 |
4 |
34 |
56 |
77 |
112 |
233 |
修改后 |
0 |
4 |
34 |
57 |
78 |
113 |
234 |
修改前 |
0 |
23 |
54 |
56 |
57 |
234 |
255 |
修改后 |
0 |
11 |
27 |
28 |
29 |
117 |
127 |
3.3 區(qū)間計算及確定
初始時符號所在的總區(qū)間為high=0xff,low=0(high和low分別表示已編碼的符號序列所在子區(qū)間的上下界)。隨著符號的不斷輸入,high和low的值也不斷地減小,用以表示輸入符號序列所對應(yīng)的子區(qū)間。通過如下的公式可確定輸入符號的區(qū)間:
計算時,最耗資源的是乘法器和除法器。本方案中乘法器采用參數(shù)化模塊lpm中的lpm_mult生成。而除法器則自動編寫。雖然占用的時鐘周期較多,但與使用lpm相比,這樣做可以大大地提高工作頻率,從總體上提高性能。
3.4 并行編碼
在區(qū)間計算過程中,high和low總是有限值,不可能無限制地劃分下去。為了能夠?qū)崿F(xiàn)連續(xù)的編碼,通過對high和low的處理,可以實現(xiàn)利用有限長的寄存器表示無限精度的區(qū)間,即在不斷修改high和low的過程中輸出high和low中相同的高端位,形成輸出碼流。詳細(xì)過程如下:
在區(qū)間確定之后,將low和high按位比較,若首位相同,則輸出首位二進(jìn)制碼,產(chǎn)生輸出碼流,同時把low和high左移,low末位補(bǔ)0,high末位補(bǔ)1。循環(huán)比較輸出,直到首位不同為止。如:
high = 00110110
low = 00100111 輸出碼流為001,而high和low的結(jié)果為:high = 10110111 low = 00111000 通過這種連續(xù)地處理便可生成符號序列的自適應(yīng)算術(shù)編碼結(jié)束。但隨著待編碼符號序列的不斷輸入,可能會出現(xiàn)high和low十分接近,并且high和low的首位沒有相同位的情況,如:high = 10000000 low = 01111111 稱這種現(xiàn)象為產(chǎn)生了下溢。產(chǎn)生下溢后,后面的編碼都失去了意義,此時需要特殊處理。對于下溢的處理方法為:保留首位,同時刪除緊接在首位后的high中連續(xù)的0和low中連續(xù)的1,并且保證對high和low刪除的位數(shù)相同,若連續(xù)0和連續(xù)1的位數(shù)不同,則取其較小者;然后high和low左移相同的位數(shù),同時high的低位補(bǔ)1,low的低位補(bǔ)0。表4給出了下溢處理前后high和low值。
表4 下溢處理前后對照表
c |
下溢處理前 |
下溢處理后 |
下溢個數(shù) |
high |
10001000 |
11000111 |
3 |
low |
01110111 |
00111000 |
經(jīng)過處理后,擴(kuò)大了區(qū)間,使得后面的編碼可以順利地進(jìn)行。
在考慮了下溢的編碼輸出中,下溢作為輸出碼流的一部分,使得解碼時能對下溢進(jìn)行同樣的處理,達(dá)到編解碼的一致。但是下溢產(chǎn)生后并不馬上輸出,只記下下溢的個數(shù),下溢則是在下一個符號編碼時進(jìn)行輸出的。在下一個符號編碼時,如果high和low比較后高端有相同位則輸出下溢,即在第一個輸出后緊接著插入首位的反,插入首則反的個數(shù)為前面產(chǎn)生下溢的個數(shù),然后輸出相同的次高位及以后相同的各位。這樣處理既保留了下溢的信息又使得輸出碼流不偏離編碼符號所在的子區(qū)間,使得解碼時很容易處理。但是如此high和low比較后沒有相同輸出則不輸出下溢,而是把兩次產(chǎn)生的下溢的個數(shù)進(jìn)行累加,再輸入下一個符號,直到high和low有相同首位才輸出下溢。
例如:在一個符號編碼計算后得到的high=11010010和low=11001101,而前一個符號編碼產(chǎn)生的下溢為1個,比較后輸出為1010,同時記錄下產(chǎn)生的下溢2個,如表5所示。
表5 含有下溢的編碼輸出
編碼輸出前 |
11010010 |
11001101 |
1 |
1010 |
編碼輸出后 |
11011111 |
00100000 |
2 |
3.5 串行輸出
并行編碼后產(chǎn)生的碼流存儲在并行數(shù)據(jù)中,但在大多的情況下只有兩、三個輸出,甚至沒有輸出,若采用并行輸出,就會產(chǎn)生極大的浪費。為了充分利用資源,在并行編碼之后進(jìn)行并/串轉(zhuǎn)換,使其一位一位地輸出,并且這個輸出過程與下一個符號編碼的過程并行完成,因此并不占用多余的時鐘周期。
在編碼過程中,當(dāng)一個符號編碼結(jié)束后,觸發(fā)reload信號,通知此次編碼結(jié)束,進(jìn)行下一次編碼,讀取輸入的符號。同時需判斷輸入是否合法,如果是合法的輸入,就進(jìn)行編碼;否則停止編碼,否則停止編碼,處于等待狀態(tài),直到復(fù)位信號ret置1,重新初始化、編碼。
4 仿真結(jié)果
本文算法采用VHDL硬件描述語言實現(xiàn),并在ALTERA公司的MAX+plusⅡ軟件上編譯仿真。市府采用全局同步時鐘,避免了毛剌的產(chǎn)生,保證了信號的穩(wěn)定性。編碼的仿真結(jié)果如圖書3所示。
其中,rst、clk、c為輸入信號,rst為模塊中各寄存器的初始化信號,clk為時鐘同步信號,而c則為輸入的編碼信號;out_flag、out_bit、reload、end_code、為輸出信號,out_flag 和out_bit分別為輸出標(biāo)志位和輸出位(若out_falg=1,則此時out_bit為有效輸出;否則out_bit輸出無效),reload為一個符號編碼結(jié)束)下一個符號輸入的標(biāo)志位,end_code為編碼結(jié)束的標(biāo)志(若end_code=0,則繼續(xù)編碼,否則編碼結(jié)束)。在進(jìn)行性能仿真時[4],采用的器件是FLEX1K系列的EP1K30TC144-1器件,其最大工作頻率為40MHz,消耗1533個LC,平均編碼時間為20個時鐘周期。一個符號的編碼時間不到500ns,對于QCIF格式的圖像完全可以滿足每秒鐘實時編碼30幀圖像的要求。
自適應(yīng)算術(shù)編碼是一種效率很高的無失真編碼,本文通過VHDL語言實現(xiàn)了自適應(yīng)的算術(shù)編碼,在編碼過程中,根據(jù)硬件結(jié)構(gòu)的特點,充分利用其并行特性。通過并行執(zhí)行,實現(xiàn)了速度的優(yōu)化。由于滿足每秒鐘編碼30幀圖像的要求,因此可以應(yīng)用于視頻圖像的實時編碼中。
評論