<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > 基于ADSP-BF533處理器的H.264解碼器

          基于ADSP-BF533處理器的H.264解碼器

          作者: 時間:2007-01-24 來源:網絡 收藏

          H264標準擁有比其他視頻編碼標準更好的壓縮性能,但計算復雜度高,限制了H264標準的應用。BlackfinADI公司推出的低功耗、高性能的定點DSP芯片,有極高的性價比,是H264標準DSP實現(xiàn)的理想平臺。文中探討在Blackfin上通過多種優(yōu)化技術實現(xiàn)H264實時的方法。并給出實驗結果。

          關鍵詞H264 Blackfin 實時

           

          H264ITU TVCEGISOIECMPEG聯(lián)合成立的聯(lián)合視頻組JVT(Joint Video Tearn)共同制定的新視頻編碼標準,定位于覆蓋整個視頻應用領域。H264標準采用了可變大小宏塊的運動補償、多幀參考、整數變換、14像素精度的運動估計、去塊效應濾波器等新技術,因而獲得更好的壓縮性能,同時也導致了運算量的大幅度增加。


          Blackfin
          采用了ADI公司和英特爾公司共同開發(fā)的微信號結構,在結構中加人專門的視頻處理指令,工作頻率高達756 MHz,能完成12OOM次/s乘加操作。與采用超標量結構或超長指令集的DSP(TIC6000系列)相比,Blackfin處理器在功耗、成本方面具有很大的優(yōu)勢,非常適合嵌入式的視頻應用。

           

          1 H264視頻編碼標準

          H264視頻編的基本結構與早期的編碼標準(H263、MPEG4)相似,都是由運動補償、變換、量化、熵編碼、環(huán)路去塊效應濾波器等功能單元組成的。H264標準的改進主要體現(xiàn)在各功能模塊內部。H_264的重大改進表現(xiàn)在以下幾個方面:

          ①高精度的14像素精度的運動預測。

          ②多種宏塊劃分模式。每個宏塊(1616像素)的亮度分量有7種分區(qū)方法:1616、168、816、88、84、48、44

          ③多幀預測。在幀間編碼時,可選5個不同的參考幀。

          ④整數變換。采用基于44像素塊的整數變換代替DCT變換。

          H_264AVC支持兩種熵編碼方法,即CAVLC(基于上下文的自適應可變長編碼)CABAC(基于上下文的自適應算術編碼)。CAVLC的抗差錯能力比較高,而編碼效率比CABAC低;CABAC編碼效率高,但需要的計算量和存儲容量更大。

          ⑥幀內預測編碼。H264采用了多種設計合理的幀內預測模式,大大降低了I幀的編碼率。

          ⑦網絡適配層NAL(Network Abstraction Layer)為視頻編碼層提供一個與網絡無關的統(tǒng)一接口,使視頻編碼數據能適應不同的網絡應用環(huán)境。

          H264分為7種不同的框架(profile)――Baselineprofile、Main profiIe、Extended profileHigh profik、High10 profik、High422 profileHigh 444,分別代表不同的技術限制和算法集合。其中baseline prome的使用是不收版權費的。

           

          2 基于的軟硬件實現(xiàn)平臺

          硬件平臺采用ADI公司的 EZkit Lite評估板。此評估板包括lADSPBF533處理器,32MB SDRAM,2 MB FlashADVl836音頻編解碼器外接4輸入/6輸出音頻接口,ADV7183視頻解碼器和ADV7171視頻編碼器外接3輸入/3輸出視頻接口,1UART接口,1USB調試接口,1JTAG調試接口。評估板系統(tǒng)結構框圖如圖1所示。

           

          評估板上采用的ADSPBF533處理器,工作頻率高達756 MHz。該處理器有以下特點:雙16位乘法累加器;雙40位算術邏輯單元(ALU);48位視頻ALU;140

          位移位器;專用的視頻信號處理指令;148 KB的片內存儲器(16 KB可作為指令Cache,32 KB可作為數據Cache);動態(tài)電源管理功能等。Blackfin處理器還包括豐富的外設和接口:EBIU接口(4128 MB SDRAM接口,4l MB異步存儲器接口),3個定時/計數器,1UART,1SPI接口,2個同步串行接口,1路并行外設接口(支持ITU656數據格式)等等。Blackfin處理器在結構上充分體現(xiàn)了對媒體應用(特別是視頻應用)算法的支持。


          軟件驗證采用如下方式:首先,通過
          DSP仿真器將H264編碼文件拷貝到評估板的存儲器里。然后,軟件從存儲器中讀取編碼文件的數據,進行解碼操作。最后,將解碼的數據通過PPI接口輸出到ADV7171芯片,ADV7171芯片將輸入的視頻數據編碼為PAL格式輸出到顯示器上二進行顯示。


          Blackfin
          處理器的軟件開發(fā)平臺是VisualDSP++40。

           

          3 H 264實時解碼器軟件設計

          3.1軟件總體設計

          為了實現(xiàn)實時解碼的要求,需要優(yōu)化程序的設計。優(yōu)化流程如下:

          ①在PC機上進行算法的驗證和評估、優(yōu)化程序的流程設計和數據結構設計。

          ②將程序代碼移植到Blackfin處理器。在VisualDSP++集成開發(fā)環(huán)境里進行編譯,刪除PC平臺相關的代碼,添加DSP平臺相關的代碼。

          ③進行基于DSP平臺的優(yōu)化操作。設置速度優(yōu)化的編譯參數,進行C語言級的優(yōu)化,用匯編指令改寫最耗時的函數,通過使用專用的向量指令和并行指令減少函數的執(zhí)行時間。


          3.2
          PC機上實現(xiàn)并優(yōu)化解碼器程序

          解碼器程序參考了JM96,并在以下方面作了優(yōu)化:

          ①由于只支持Baseline profile,刪除有關B幀、SI片、SP片和數據分割等不支持特性的冗余程序代碼;

          ②修正JM96,每次處理一個Slice時都要分配內存,讀取其中信息,再釋放內存,合理安排內存空間的分配和釋放;

          ③將I幀、P幀分別獨立解碼,宏塊解碼也按預測模式和預測方向分成不同的解碼模塊,以省去中間的重復判斷,提高解碼速度;

          ④優(yōu)化CAVLC碼表的查詢方法。


          3.3
          程序移植

          VisualDSP++是一款支持Blackfin處理器的集成開發(fā)、調試環(huán)境,包括VisuaIDSP++內核(VDK)、CC++編譯器、高級圖形繪制工具、調試工具、器件模擬器等多種功能;能夠很好地支持在Blackfin處理器上用CC++語言進行開發(fā)工作。


          移植的第一步是除去所有的編譯環(huán)境不支持的函數(例如某些時間相關的函數),將文件操作修改為讀取文件數據緩存的操作,刪除SNR信息收集和信息打印輸出等DSP平臺實現(xiàn)不需要的代碼。第二步是添加與硬件相關的代碼。這些代碼包括系統(tǒng)初始化代碼、輸出模塊代碼、中斷服務程序和解碼速率控制程序等程序代碼。


          移植完畢后,就實現(xiàn)了基于ADSP-BF533處理器的H_264解碼器;但速度達不到實時解碼的要求,還需要進行優(yōu)化。


          3.4
          基于DSP平臺的優(yōu)化

          基于DSP平臺的優(yōu)化分為系統(tǒng)級優(yōu)化、C程序級優(yōu)化和匯編級優(yōu)化。


          (1)
          系統(tǒng)級優(yōu)化

          打開編譯器中的優(yōu)化開關,設置為速度最優(yōu)化;打開自動內聯(lián)開關;打開“Interprocedural optimization(過程間優(yōu)化)開關;使用VisualDSP++編譯器的PGO(ProfileGuided Optimization)優(yōu)化編譯技術。


          (2)C
          程序級優(yōu)化

          C程序級的優(yōu)化主要是針對BIackfin處理器的具體特點進行優(yōu)化:

          ①編寫鏈接描述文件,將經常用的數據存儲在片內存儲器,例如CAVLC熵解碼的碼表;啟用指令Cache和數據Cache,設置好啟用Cache機制的指令地址和數據地址。

          ②將除法操作轉換為乘法操作或者采用查表法計算。

          ③減少對片外存儲器的訪問次數。對于經常訪問的片外存儲器區(qū)域,設置Cache使能,并可設置Cache鎖定,防止被緩存的數據被替換,減少Cache未命中的幾率。

          ④對于能夠用較短的數據類型表達的數據改用較短的數據類型表達,例如原定義為int類型的44逆整數變換的輸人數據,實際上可以定義為short類型。


          (3)
          匯編級優(yōu)化

          匯編級優(yōu)化通常遵循以下原則:

          使用寄存器代替局部變量。如果局部變量用來保存計算的中間結果,那么用寄存器

          代替局部變量可以省掉很多訪問內存的時問。

          使用硬件循環(huán)代替軟件循環(huán)。.Blackfin處理器有專用的硬件支持兩級嵌套的零開銷

          硬件循環(huán)。用硬件循環(huán)代替軟件循環(huán)可避免堵塞流水線,提高速度。

          ③使用并行指令和向量指令。使用并行指令和向量指令,可以充分利用Blackfin處理器的SIMD系統(tǒng)結構的優(yōu)點和內部硬件資源的并行處理優(yōu)點,減少指令執(zhí)行次數和提高指令執(zhí)行效率。使用1條并行指令同時執(zhí)行2條或3條非并行指令。向量指令可以同時對多個數據流進行相同的加工操作。

          ④使用視頻處理指令。視頻處理應用可以使用Blackfin處理器專用的視頻處理指令,提高執(zhí)行效率。


          將最耗時的一些函數用匯編語言改寫,充分利用
          Blackfin處理器的S1MD結構的優(yōu)點和硬件上的并行性,在一個指令周期內執(zhí)行多個操作,減少函數執(zhí)行需要的指令周期。最耗時的函數有宏塊解碼函數decode_one_macroblock、逆整數變換函數itrans、去塊效應濾波函數EdgeLoop、濾波門限計算函數Get_Strength等函數。


          下面以
          44矩陣逆整數變換函數itrans14像素插值濾波get_block(),說明用匯編指令優(yōu)化帶來的性能提高。44矩陣的逆整數變換函數itrans采用的是2級蝶形運算,先對44矩陣的每一行分別做行逆變換,再對每一列做列逆變換。一維變換采用如圖2所示的蝶形算法。

          Blackfin處理器的SIMD結構支持向量操作,最多可以在1個周期內完成416位的加法操作。它的并行指令能同時進行算術運算和兩個數據的裝載/存儲操作。例如上述的蝶形運算可以用如下指令實現(xiàn)(設寄存器IO中保存了輸人數據y[4][4]的地址,I2中保存了系數數組cof[2]={0x7fff,0x4000}的地址,Il中保存了臨時變量tmp[4][4]的地址,R2R1保存的是中問結果)

          R7=[IO++];

          Al=R6I*R71AO=R61*R71(IS)┃│I R5=

          [10++]┃┃[││++]=R2;

          R4h =(A1一一R51*R61)R41=(AO+=R51*R61)(IS)││W[I1++]=R1h;

          R71=R61*R5h(IS)1 W[11++]=R11;

          R5=R7>>>1(v)

          A1=R61*R5h,AOR61*R51(IS);

          R3h(A1+R61*R71), R31(AO =R61*R7h)(IS);

          R2=R4+l+R3,R1=R4一│ R3


          完成一次一維逆變換只需
          8條指令,算上函數調用的開銷和其他一些輔助指令,完成一個44矩陣的逆整數變換時總共需要82條指令周期。表1是優(yōu)化前、后的比較。


          get_block
          函數對像素矩陣進行14像素插值操作。先用六階濾波器進行12像素插值,然后用線性內插法進行l4像素插值。


          l
          2像素b計算方法為:b=round((E5F+20G+20H5I+j)32)。示意圖如圖3所示。E、F、G、H、I、J是整數像素,bGH之問的12像素。

           

          像素的亮度值為unsigned char類型,先利用并行指令可以在1個指令周期內將8個像素的亮度值讀到寄存器,然后利用視頻專用指令將4個字節(jié)解包到1個寄存器對(R1OR32)中去,利用向量指令在1個周期內進行2次乘加操作。通過視頻專用指令、向量指令和并行指令的使用,減少了函數指令的指令周期數。

           

          4 實驗結果

          EZKit533開發(fā)板上測試了解碼器算法,對CIF格式(352288)foreman測試序列,可以達到4550幀/s的解碼速度;對CIF格式的mobile測試序列,能夠達到40幀~44幀的解碼速度。如果增加解碼速率控制模塊,可以穩(wěn)定地實現(xiàn)以30幀/s的速率播放CIF測試序列。實驗結果證明,在Blackiln處理器上實現(xiàn)H264實時解碼器是可行的。ADI公司甚至聲稱可以在600 MtzBF533處理器上實現(xiàn)D1(720576)格式的視頻實時解碼器。


          BIackfin
          處理器有低功耗、低成本和高性能的特點。在Blackfin處理器上實現(xiàn)的H264視頻解碼器很適合用于IP機頂盒、可視電話、PMP(便攜式媒體播放器)等嵌人式視頻應用中。



          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();