基于DSP的H.264編碼器的系統(tǒng)設(shè)計(jì)與優(yōu)化

作者：時(shí)間：2012-04-01 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

本文引用地址：http://www.ex-cimer.com/article/257597.htm

2．5 控制電路設(shè)計(jì)

DM6446的視頻信號(hào)接口、EMIF接口為1.8 V電平，ADV7189B接口、PCIE橋接口為3.3 V電平。系統(tǒng)需要大量的電平轉(zhuǎn)換工作，同時(shí)還需要實(shí)現(xiàn)大量的邏輯控制、PCIE橋與DM6446的通信協(xié)議。FPGA器件是最適合的選擇。選用Altera公司的邏輯器件EP2C35，它可在片內(nèi)實(shí)現(xiàn)1.8 V、2.5 V、3.3 V電平的轉(zhuǎn)換，并且能夠滿足系統(tǒng)對(duì)邏輯控制功能的要求。EP2C35內(nèi)部集成有片內(nèi)存儲(chǔ)器，可在ADV7189B與DM6446之間建立一個(gè)緩存區(qū)，提高數(shù)據(jù)傳輸效率。FPGA與DM6446、ADV7189B和PCIE橋接口電路如圖2所示。

3 H.264編碼器的DSP移植與優(yōu)化

目前，H.264編碼器的實(shí)現(xiàn)版本主要有：JM、T264、X264。其中JM是H.264官方源碼，實(shí)現(xiàn)H.264所有特征，但其程序結(jié)構(gòu)冗長(zhǎng)，只考慮引入各種新特性以提高編碼性能，忽略編碼復(fù)雜度，其復(fù)雜度極高，不宜實(shí)用；T264編碼器編碼輸出標(biāo)準(zhǔn)的264碼流，解碼器只能解T264編碼器生成的碼流；X264是編碼器注重實(shí)用，在不明顯降低編碼性能的前提下，努力降低編碼的計(jì)算復(fù)雜度。這里，用X264編碼器對(duì)DSP平臺(tái)移植、優(yōu)化。X264程序在DSP平臺(tái)上實(shí)現(xiàn)及優(yōu)化主要有：程序簡(jiǎn)化、代碼移植、代碼優(yōu)化。

3．1 程序簡(jiǎn)化

X264編碼器除支持H.264的基本檔次外，還包含主要檔次的某些功能選項(xiàng)以及其他功能模塊，代碼尺寸較大，因此需要將不必要的功能模塊刪除，以減小代碼尺寸。主要做以下刪減：刪除X264程序中的解碼部分，以及基本檔次功能之外的CABAC、B slice部分；X264程序是基于X86的PC平臺(tái)，包含了SSE、MMX等。PC平臺(tái)使用的優(yōu)化技術(shù)，在DSP平臺(tái)下無(wú)效：針對(duì)DSP平臺(tái)特點(diǎn)，調(diào)整刪減后的代碼文件結(jié)構(gòu)。

3．2 代碼移植

TI公司的DSP開發(fā)工具CCS具有自己的ANSI C編譯器和優(yōu)化器，并有自己的語(yǔ)法規(guī)則和定義，經(jīng)過(guò)上一步簡(jiǎn)化后得到純C版本的X264編碼器需要經(jīng)過(guò)修改才能夠在CCS下應(yīng)用于具體的DSP。主要包括：①Visual c++、CCS對(duì)于變量和結(jié)構(gòu)體的“重復(fù)定義”問(wèn)題的不同處理，需更改頭文件中變量和結(jié)構(gòu)體定義的位置；②用功能相同的庫(kù)函數(shù)代替CCS中沒有的庫(kù)函數(shù)，如strncasecmp()；③數(shù)據(jù)格式的不同，用long代替CCS中沒有的_int64格式；④按照CCS下C語(yǔ)言的規(guī)則定義數(shù)組；⑤修改系統(tǒng)配置參數(shù)的讀取方式；⑥編寫針對(duì)TMS320DM6446存儲(chǔ)結(jié)構(gòu)的CMD文件。如此，X264便可以在CCS下編譯通過(guò)并運(yùn)行。

3．3 代碼優(yōu)化

純C版本的X264程序并沒有利用DM6446的資源和并行機(jī)制，代碼運(yùn)行速度極低。因此必須對(duì)代碼進(jìn)行優(yōu)化，提高處理性能。X264代碼優(yōu)化有以下3個(gè)層次：項(xiàng)目級(jí)優(yōu)化、算法級(jí)優(yōu)化和指令級(jí)優(yōu)化：

(1)項(xiàng)目級(jí)優(yōu)化項(xiàng)目級(jí)優(yōu)化主要是對(duì)CCS提供的各種編譯參數(shù)進(jìn)行選擇、搭配、調(diào)整，如本文使用的選項(xiàng)-o3、-pm等；利用CCS編譯器提供的優(yōu)化功能，改善循環(huán)及多重循環(huán)體性能，進(jìn)行軟件流水，提高軟件的并行性；改寫不適合編譯器優(yōu)化的語(yǔ)句，使CCS能夠?qū)Τ绦蜻M(jìn)行更好的優(yōu)化。

(2)算法級(jí)優(yōu)化進(jìn)行算法級(jí)優(yōu)化時(shí)。應(yīng)使VC環(huán)境下的純C版本與CCS下的版本同步更新，VC版本運(yùn)行正確，既可以保證算法理論上的正確，又可以加快工作速度并減少問(wèn)題的產(chǎn)生。該算法優(yōu)化工作主要有以下幾點(diǎn)：①運(yùn)動(dòng)估算法的選擇：X264編碼器提供3種可選的整像素運(yùn)動(dòng)估算法：X264_ME_ESA(全搜索法)、X264_ME_HEX(六邊形搜索法)、X264_ME_DIA(小菱形搜索法)。在VC環(huán)境下使用純C版本代碼對(duì)同一視頻序列使用3種不同的搜索方法進(jìn)行編碼。對(duì)比3種搜索方法在編碼速度、峰值信噪比(PSNR)、碼率方面的性能。對(duì)比之下X264_ME_ESA算法的峰值信噪比最高,X264_ME_HEX次之，X264_ME_DIA最低，但相互之間的質(zhì)量差別并不大，碼率差別也很小，但編碼速度卻有明顯差距，X264_ME_DIA較前兩者在編碼速度上有明顯的優(yōu)勢(shì)。經(jīng)比較，選擇使用X264_ME_DIA運(yùn)動(dòng)估計(jì)算法。②幀內(nèi)預(yù)測(cè)模式的改進(jìn)：在X264的幀內(nèi)預(yù)測(cè)流程中加入提前終止模式選擇的條件，改進(jìn)算法的流程。進(jìn)行16×16宏塊幀內(nèi)模式搜索時(shí)，在當(dāng)前模式的開銷小于已搜索過(guò)的模式的最小開銷的一半時(shí)，終止16×16幀內(nèi)預(yù)測(cè)模式選擇，以當(dāng)前模式為最佳16×16幀內(nèi)預(yù)測(cè)模式。對(duì)4×4塊也加入相同的條件，并且若當(dāng)前4×4塊幀內(nèi)預(yù)測(cè)模式的預(yù)測(cè)開銷比相應(yīng)的最佳16×16塊幀內(nèi)預(yù)測(cè)模式的開銷的1／16還要小，則終止4×4塊的幀內(nèi)預(yù)測(cè)模式選擇，以當(dāng)前預(yù)測(cè)模式作為最佳4×4塊的幀內(nèi)預(yù)測(cè)模式。改進(jìn)后的幀內(nèi)預(yù)測(cè)主體流程如圖3所示，灰色部分為加入的判定條件。

幀間預(yù)測(cè)模式的改進(jìn)：將當(dāng)前的16×16宏塊劃分為4個(gè)8×8宏塊，分別預(yù)測(cè)其運(yùn)動(dòng)矢量，然后以左右相鄰、上下相鄰的2個(gè)8×8塊的運(yùn)動(dòng)矢量的差值和閾值相比較為依據(jù)，判定是否進(jìn)行16×8、8×16等分塊模式的預(yù)測(cè)，最后選擇開銷最小的劃分模式為最佳幀間劃分模式。

(3)指令級(jí)優(yōu)化 DM6446一個(gè)時(shí)鐘周期內(nèi)可并行運(yùn)行8條指令，一次可存取64位數(shù)據(jù)，內(nèi)部擁有64個(gè)32位通用寄存器，并且支持對(duì)寄存器中的4個(gè)8位字節(jié)或2個(gè)16位字節(jié)分別進(jìn)行運(yùn)算處理，這些使得DM6446具有很強(qiáng)的并行運(yùn)算能力。視頻圖像的像素尺寸一般是4的倍數(shù)，X264中像素的值是用8位或16位數(shù)據(jù)按矩陣形式有規(guī)律的存儲(chǔ)，這種數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)與DM6446的并行處理方式很契合。因此對(duì)X264程序進(jìn)行指令優(yōu)化充分發(fā)揮DM6446的并行運(yùn)算能力，是提高編碼器速度的關(guān)鍵。主要分為以下兩部分：①使用內(nèi)聯(lián)函數(shù)優(yōu)化；C6000編譯器提供了許多內(nèi)聯(lián)函數(shù)intrinsics，它們是匯編指令映射的在線函數(shù)，不宜用C語(yǔ)言實(shí)現(xiàn)其功能的匯編指令都有對(duì)應(yīng)的intrinsics函數(shù)。這樣就可在C語(yǔ)言結(jié)構(gòu)中直接使用內(nèi)聯(lián)函數(shù)實(shí)現(xiàn)對(duì)多個(gè)數(shù)據(jù)的并行運(yùn)算操作。如：未使用內(nèi)聯(lián)函數(shù)優(yōu)化前X264程序調(diào)用一次雙線性內(nèi)插函數(shù)只能計(jì)算一個(gè)亞像素點(diǎn)的值，而使用內(nèi)聯(lián)函數(shù)_mem4()、_avgu4()等進(jìn)行優(yōu)化后，一次可以計(jì)算4個(gè)亞像素點(diǎn)的值，大大提高了運(yùn)算速度。②使用線性匯編語(yǔ)言優(yōu)化：由于線性匯編不需要考慮寄存器分配、指令延遲、并行指令安排等因素。因此可以利用CCS提供的profile分析工具將使用頻率高、耗時(shí)多的函數(shù)抽取出來(lái)，根據(jù)事先已知的數(shù)據(jù)間的相關(guān)性等信息，在程序中直接改寫函數(shù)匯編，人工優(yōu)化。涉及的算法有：SAD、SSD的計(jì)算；DCT變換；反DCT變換、亞像素搜索等。

4 實(shí)驗(yàn)結(jié)果

選取具有代表性的視頻序列carphone(人物運(yùn)動(dòng)幅度較大)、news(背景變化，人物運(yùn)動(dòng)幅度不大)、container(背景簡(jiǎn)單，景物運(yùn)動(dòng)緩慢)進(jìn)行編碼。視頻為YUV 4：2：0格式．QCIF，量化步長(zhǎng)定為26，共50幀，采用IPPP…編碼模式。DM6446的時(shí)鐘頻率為600 MHz。表1為優(yōu)化后峰值信噪比、消耗時(shí)鐘周期、碼率等實(shí)驗(yàn)結(jié)果。表2為優(yōu)化前后編碼時(shí)鐘周期對(duì)比，I幀編碼速度平均提高了9倍，P幀編碼速度平均提高了11倍。

以視頻Miss-America為例，研究、對(duì)比移植優(yōu)化后的編碼器在不同的量化步長(zhǎng)值(QP)下，圖像的壓縮質(zhì)量，如圖4所示。

5 結(jié)論

移植優(yōu)化后的X264編碼器在CCS環(huán)境下可正確編碼，在量化步長(zhǎng)值26下編碼圖像質(zhì)量較高，優(yōu)化后編碼速度較優(yōu)化前有明顯提升。介紹的H.264視頻編碼系統(tǒng)的硬件設(shè)計(jì)，和X264編碼器針對(duì)DM6446平臺(tái)移植、優(yōu)化的思路和方法，對(duì)構(gòu)建高效的視頻應(yīng)用平臺(tái)具有一定的參考價(jià)值。

作者：李博丞嚴(yán)勝剛曲鵬

新聞中心

基于DSP的H.264編碼器的系統(tǒng)設(shè)計(jì)與優(yōu)化

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)