基于DSP平臺的快速H.264編碼算法的設(shè)計

作者：時間：2009-02-24 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　 視頻壓縮編碼標(biāo)準(zhǔn)H.264／AVC是由ISO／IEC和ITU-T組成的聯(lián)合視頻專家組(JVT)制定的，他引進了一系列先進的視頻編碼技術(shù)，如4×4整數(shù)變換、空域內(nèi)的幀內(nèi)預(yù)測，多參考幀與多種大小塊的幀間預(yù)測技術(shù)等，標(biāo)準(zhǔn)一經(jīng)推出，就以其高效的壓縮性能和友好的網(wǎng)絡(luò)特性受到業(yè)界的廣泛推崇。特別是在2004年7月JVT組織做了重要的保真度范圍擴展的補充后，更加擴大了標(biāo)準(zhǔn)的應(yīng)用范圍，但同時巨大的運算量卻成為其廣泛應(yīng)用的瓶頸?？紤]到H.264協(xié)議實現(xiàn)的復(fù)雜度，本文的思路是：一方面提高硬件處理速度和能力，采用TI公司最新的數(shù)字媒體處理器Davinci TMS320DM6446 DSP芯片作為H.264編碼器實現(xiàn)的硬件平臺，另一方面提高算法效率。最后提出一個基于這個芯片的嵌入式H.264編碼器的設(shè)計方案。

　　1 硬件平臺

　　1.1 Davinci DM6446芯片介紹

　　DM6446采用DSP+ARM的雙內(nèi)核結(jié)構(gòu)(內(nèi)核圖見圖1)，其中的DSP芯片的CPU時鐘頻率可達594 MHz，ARM的引入可以釋放DSP在控制方面的部分功能，使DSP專門進行數(shù)據(jù)處理的工作。芯片采用增強型的哈佛結(jié)構(gòu)總線，其CPU內(nèi)部有2個數(shù)據(jù)通道，8個32 b的功能單元，2個通用寄存器組(A和B)，可同時執(zhí)行8條32 b長指令。如果能充分利用這8個功能單元，總字長為256 b的指令包同時分配到8個并行處理單元，在完全流水的情況下，該芯片的指令吞吐量將達到594×8=4 752 MIPS。處理器具有雙16 b擴充功能，芯片能在一個周期內(nèi)完成雙16 b的乘法、加減法、比較、移位等操作。該芯片內(nèi)部支持兩級Cache，其中第一級32 kB的程序緩存器L1P，80 kB的數(shù)據(jù)緩存器L1D，而第二級的Cache大小是可配置的64 kB，芯片自動完成這兩級Cache之間數(shù)據(jù)一致性的維護。有了這兩級Cache的支持將使CPU的執(zhí)行速度大大加快。

　　Davinci DM6446具有專用的視頻圖像處理子系統(tǒng)。視頻處理子系統(tǒng)包括1個視頻前端和1個視頻末端，視頻前端的輸入接口用于接受外部傳感器或視頻譯碼器輸出的BT.656等圖像輸入信息；視頻末端輸出接口輸出圖像，實現(xiàn)圖像本地重現(xiàn)。

　　視頻前端輸入(VPFE)接口由1個CCD控制器(CCDC)，1個預(yù)處理器，柱狀模塊，自動曝光／白平衡／聚焦模塊(H3A)和寄存器組成。CCD控制器可以與視頻解碼器CMOS傳感器或電荷耦合裝置連接。預(yù)處理器是一個實時的圖形處理器。

　　1.2 H.264編碼器硬件平臺

　　本系統(tǒng)的平臺核心處理芯片為Davinci DM6446，如圖2所示，片外RAM選取兩片DDR并聯(lián)成32位的數(shù)據(jù)寬度，空間為256 MB。模擬視頻信號在“VIDEO IN”引入后經(jīng)過解碼芯片TVP5146變換為數(shù)字信號后輸入TMS320DM6446芯片中進行處理，H.264編碼處理后的碼流可以通過視頻末端輸出保存在本地硬盤上，以方便調(diào)試檢查?；蛘呖梢酝ㄟ^10／100 M以太網(wǎng)物理層接口輸出，進行網(wǎng)絡(luò)傳輸。同時，本地的重構(gòu)圖像可以通過TMS320DM6446芯片內(nèi)部OSD模塊和編碼模塊D／A變換后直接顯示輸出。

　　2 H.264編碼器結(jié)構(gòu)與編碼流程

　　2.1 H.264編碼器結(jié)構(gòu)

　　如圖3所示輸入的圖像以宏塊為單位進入編碼器中，根據(jù)圖像變化的快慢選擇幀內(nèi)或幀間預(yù)測編碼。如果選擇幀內(nèi)預(yù)測編碼，首先判斷當(dāng)前待編碼塊中是否包含很多的細節(jié)，再決定是否要把幀進行再分割。接著以重建幀μF′n中的塊為參考，結(jié)合當(dāng)前塊周圍塊的預(yù)測模式，選擇當(dāng)前塊的最佳預(yù)測模式。最后由重建幀μF′n中相應(yīng)塊和當(dāng)前塊選定的預(yù)測模式得到當(dāng)前塊的預(yù)測值。按照上述方法，對圖像中的每一宏塊作出幀內(nèi)預(yù)測，進而得到一幀圖像的預(yù)測值P。如果選擇幀間預(yù)測編碼，當(dāng)前輸入幀F(xiàn)n和前一幀(參考幀)Fn-1被送到運動估計器(ME)，通過塊搜索，匹配可以得到當(dāng)前幀中的各宏塊相對于參考幀中對應(yīng)宏塊的偏移量，也就是常說的運動矢量。接著，參考幀F(xiàn)n-1和剛得到的運動矢量MV被送到運動補償器(MC)，通過計算得到幀間預(yù)測值P；當(dāng)前幀F(xiàn)n和幀預(yù)測值P相減，得到殘差Dn，經(jīng)過變換，量化后產(chǎn)生一組量化后的變換系數(shù)X，再經(jīng)過熵編碼，與解碼所需的一些邊信息(如預(yù)測模式量化參數(shù)，運動矢量等)一起組成一個壓縮后的碼流，經(jīng)NAL(網(wǎng)絡(luò)自適應(yīng)層)供傳輸和存儲。

2.2 編碼器編碼流程

　　如圖4所示為H.264編碼器主流程。對輸入的一幀圖像首先進行單元劃分：以宏塊為基本單元進行劃分，再由若干宏塊在組合成Slice，由Slice再組合成Slice Group，這樣每個宏塊所屬的Slice和Slice Group也就確定了。再判斷輸入的一幀圖像是I-Frame還是P-Frame。在以上工作完成后，也就可以對每個宏塊進行編碼了。在對每個宏塊都編碼完成后，還需要對重構(gòu)圖像進行1／4象素精度插值處理、參考幀緩沖區(qū)插入處理等工作。至此，編碼一幀的工作才算完成。

　　3 運動估計模式快速率失真決策

　　為了減少圖像序列的時間冗余，達到更好壓縮效果的目的，H.264／AVC編碼方案采用運動補償技術(shù)和預(yù)測。即由先前已編碼的一個或多個幀產(chǎn)生當(dāng)前編碼幀的一種預(yù)測模式，然后再進行預(yù)測編碼。且采用了一種可變塊尺寸的運動預(yù)測模式，亮度塊尺寸的范圍從16×16變化到4×4，其中包含很多可選模式，形成了一種樹形結(jié)構(gòu)的運動預(yù)測。對于I幀(包含幀內(nèi)4×4、幀內(nèi)16×16)，對P幀(包含幀內(nèi)4×4、幀內(nèi)16×16、SKIP模式、幀間16×16、幀間16×8、幀間8×16、幀間8×8、幀間8×4、幀間4×8)同時還為P幀和B幀提供了特殊的SKIP模式，總共11種模式。這些可選模式的存在使得編碼方式更加靈活，編碼精度相對于固定尺寸塊預(yù)測要高很多。然而，可選的幀問預(yù)測模式增加了，必然會使得運算復(fù)雜度增加，因此有必要采用一種高效的決策方法來選取塊尺寸組合方式，使得編碼效率和編碼質(zhì)量均佳。

　　3.1 拉各朗日代價函數(shù)

　　引入拉各朗日代價函數(shù)如下：

　　其中D表示重構(gòu)恢復(fù)圖像相對于原始圖像間的失真；R(si，m)表示對宏塊編碼后數(shù)據(jù)及相關(guān)參數(shù)在碼流中所占用的比特數(shù)，一般由編碼統(tǒng)計得到，但對于SKIP模式，比特數(shù)默認為1比特；λ表示模式選擇時所使用的拉各朗日乘積因子。

　　對于運動估計，可使用拉各朗日代價函數(shù)作為選擇運動矢量的判決標(biāo)準(zhǔn)。根據(jù)式(1)得到對一個采樣塊si進行ME判決的代價函數(shù)為下：

　　該式返回產(chǎn)生最小代價值的最佳匹配運動矢量mi，其中M指各種可能編碼模式的集合，m為當(dāng)前選定模式，式(2)中R(si，m)是運動矢量(mx，my)所要傳輸(按熵編碼)的比特數(shù)。D(si，m)表示對圖像宏塊的預(yù)測誤差，對于該預(yù)測誤差的計算有兩種方案：當(dāng)預(yù)測誤差選擇是絕對誤差時用(SAD)表示，如式(3)；當(dāng)預(yù)測誤差選擇是平方差時，則用SSD表示，如式(4)中：

　　其中A為當(dāng)前編碼宏塊。在使用多參考幀進行運動估計時，mi表示所選用的最佳參考幀。在進行運動搜索時，對塊si先是進行整象素精度的運動搜索，以取式(1)最小值為匹配標(biāo)準(zhǔn)，得到整象素精度最佳匹配點后，以同樣的方法進行1／2，1／4象素精度的匹配搜索。同時在多個參考幀內(nèi)作同樣的操作，將所得的函數(shù)代價進行比較得到最小值，也就找到了s，塊的最佳匹配的運動矢量mi。

　　3.2 快速預(yù)測模式判斷算法

　　快速算法相對于拉各朗日代價函數(shù)算法，可分以下兩步實現(xiàn)：

　　(1)以基于預(yù)測模式的方式計算代價函數(shù)J，但是這里采用簡化的計算方法，對每一種采樣模式進行分行交錯隔點采樣，如對8×8塊內(nèi)象素進行下采樣，采樣如圖5所示。

　　然后對采樣點計算SAD，記做SADi。僅對采樣點計算的拉各朗日代價函數(shù)如下：

　　J=[SAD(si，m)+λ?R(si，m)]

　　先對上述各種模式分別計算代價函數(shù)J，然后選擇代價最小的3種模式構(gòu)成候選模式集。

　　(2)對步驟(1)所得到的候選模式集中每個模式，按照式(1)，通過計算基于率失真的代價來實現(xiàn)基于RDO的模式選擇，也即C值最小的模式作為最終預(yù)測模式。

　　4 測試結(jié)果與結(jié)論

　　目前，基于DM6446平臺上設(shè)計的以上H.264編碼器系統(tǒng)己基本完成，我們選擇了幾個常見的視頻對該編碼器進行了性能測試，測試數(shù)據(jù)如表1所示。數(shù)據(jù)表明本H.264編碼器能夠正常工作，且表現(xiàn)出較好的壓縮性能。當(dāng)然該編碼器只實現(xiàn)了H.264協(xié)議的基本檔次的部分，而且尚未進行更專門的優(yōu)化過程，而協(xié)議的其他部分，由于其復(fù)雜性，則需要進行進一步研究，沿著這個方向，視頻還可以進一步壓縮。

新聞中心

基于DSP平臺的快速H.264編碼算法的設(shè)計

評論

相關(guān)推薦

技術(shù)專區(qū)