<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 基于Xtensa可配置處理器技術(shù)的視頻加速引擎技術(shù)開(kāi)發(fā)

          基于Xtensa可配置處理器技術(shù)的視頻加速引擎技術(shù)開(kāi)發(fā)

          作者: 時(shí)間:2010-11-24 來(lái)源:網(wǎng)絡(luò) 收藏

            6、建立單指令流多數(shù)據(jù)流SIMD功能部件
            
            前面的SAD程序還可以進(jìn)一步優(yōu)化。程序中的內(nèi)循環(huán)將宏塊中16列做相同的運(yùn)算。這對(duì)于SIMD(單指令多數(shù)據(jù))功能部件而言是理想選擇,相應(yīng)的指令“sub.abs.ac16”針對(duì)16個(gè)像素同時(shí)完成sub.abs.ac操作,如圖5所示。
            
            圖5 對(duì)16個(gè)像素同時(shí)進(jìn)行sub.abs.ac指令的單指令流多數(shù)據(jù)流計(jì)算操作
            
            相應(yīng)的C語(yǔ)言過(guò)程名為sub.abs.ac16,利用此過(guò)程名重新改寫(xiě)的SAD內(nèi)核C程序代碼如下:
             for (row = 0; row numrows; row++) {
             sub.abs.ac16( accum, macroblk1[row], macroblk2[row]);
            } /* row loop */
            通過(guò)改寫(xiě)后的SAD內(nèi)核程序從768個(gè)算術(shù)操作減少為僅16個(gè)算術(shù)操作。
             然而,僅僅只有上述C程序代碼是不夠的。因?yàn)橹噶顂ub.abs.ac16需要從兩個(gè)宏塊中讀取128位的數(shù)據(jù),這需要兩個(gè)方面的支持:一個(gè)128位的寄存器文件和一個(gè)寬數(shù)據(jù)位的取數(shù)/存數(shù)接口,可均支持這些功能。
            
            7、建立用戶(hù)定制的寄存器文件
            
            在中,說(shuō)明一個(gè)任意寬度的定制寄存器文件就像寫(xiě)一行程序那么簡(jiǎn)單。例如,稱(chēng)為“myRegFile128”的過(guò)程語(yǔ)句建立一個(gè)寬度為128位的寄存器文件,長(zhǎng)度為4,并建立一個(gè)相應(yīng)的新的C數(shù)據(jù)類(lèi)型,“myRegFile128”能夠用于C/C++程序代碼說(shuō)明變量。軟件工具也建立“MOVE”操作,用于將各種C數(shù)據(jù)類(lèi)型轉(zhuǎn)換為新的定制數(shù)據(jù)類(lèi)型。因此,采用sub.abs.ac16過(guò)程和新寄存器文件后的SAD內(nèi)核C程序代碼如下:
            for (row = 0; row numrows; row++) {
             myRegFile128 mblk1, mblk2;
             mblk1 = macroblk1[row];
             mblk2 = macroblk2[row];
             sub.abs.ac16( accum, mblk1, mblk2);
            } /* row loop */
            現(xiàn)在C/C++編譯器將會(huì)產(chǎn)生一條MOVE指令,將數(shù)據(jù)從一般的C數(shù)據(jù)類(lèi)型移到定制的C數(shù)據(jù)類(lèi)型“myRegFile128”,并為新寄存器文件分配寄存器。
            
            8、建立高數(shù)據(jù)帶寬的加載/存儲(chǔ)接口
            
            為了對(duì)高帶寬定制寄存器文件(以及相應(yīng)的單指令流多數(shù)據(jù)流SIMD功能部件)進(jìn)行數(shù)據(jù)存取,應(yīng)當(dāng)具有高帶寬數(shù)據(jù)加載/存儲(chǔ)操作能力。對(duì)可處理器而言,設(shè)計(jì)人員能夠說(shuō)明定制加載和存儲(chǔ)操作指令,直接完成對(duì)定制寄存器文件的高帶寬加載/存儲(chǔ)數(shù)據(jù)操作。然后,編譯器自動(dòng)產(chǎn)生與高帶寬加載/存儲(chǔ)接口相應(yīng)的加載/存儲(chǔ)指令。
            經(jīng)過(guò)更新后的處理器數(shù)據(jù)通路如圖6所示。硬件生成工具產(chǎn)生高帶寬的定制寄存器文件、與數(shù)據(jù)存儲(chǔ)器相關(guān)的加載/存儲(chǔ)接口以及相應(yīng)的前饋邏輯、控制邏輯和旁通邏輯。硬件工具還產(chǎn)生相應(yīng)的硬件邏輯,用于將數(shù)據(jù)從基準(zhǔn)寄存器文件移到用戶(hù)定義的寄存器文件中。
            
            圖6 插入寄存器文件和高帶寬加載/存儲(chǔ)接口的數(shù)據(jù)通路
            
            9、更新地址的同時(shí)進(jìn)行加載
            或者存儲(chǔ)操作
            
            可配置處理器允許用戶(hù)建立另一個(gè)非常有用的功能擴(kuò)展,即建立一條指令,能夠同時(shí)完成地址更新操作和數(shù)據(jù)加載/存儲(chǔ)操作。建立的新的加載/存儲(chǔ)操作指令能夠并發(fā)完成如下功能: Load A1 ← Memory(Addr1);Addr1 = Addr1 + IndexUpdate
             該指令能夠完成“背靠背”的加載/存儲(chǔ)操作,而不需要專(zhuān)門(mén)指令對(duì)地址進(jìn)行更新。
            
            10、建立先進(jìn)先出(FIFO)接口
            和通用輸入/輸出端口
            
            和音頻均為流媒體,需要對(duì)處理器進(jìn)行快速數(shù)據(jù)訪問(wèn)。傳統(tǒng)的處理器受限于系統(tǒng)總線接口,以及數(shù)據(jù)操作執(zhí)行前對(duì)所以數(shù)據(jù)的加載與存儲(chǔ)訪問(wèn)。
            為支持流媒體數(shù)據(jù)/輸出操作,可配置處理器允許設(shè)計(jì)人員定義先進(jìn)先出(FIFO)接口以及通用輸入/輸出(GPIO)端口,以便直接對(duì)數(shù)據(jù)通路進(jìn)行讀寫(xiě)訪問(wèn)。FIFO和GPIO端口可以是任意數(shù)據(jù)寬度(可達(dá)1024位),數(shù)量不限(每個(gè)可包含1024個(gè)FIFO和GPIO端口)。這些高帶寬接口可以直接與數(shù)據(jù)通路相連,提供很高的數(shù)據(jù)吞吐量,通過(guò)處理器內(nèi)核對(duì)數(shù)據(jù)進(jìn)行讀、處理和寫(xiě)操作,這對(duì)于多媒體和網(wǎng)絡(luò)應(yīng)用而言是非常重要的。
            具有FIFO接口和GPIO端口的數(shù)據(jù)通路如圖7所示。處理器可以進(jìn)行如下操作:首先從兩個(gè)FIFO(在確保兩個(gè)先進(jìn)先出隊(duì)列均不空的情況下)中取出數(shù)據(jù),然后計(jì)算一個(gè)復(fù)操作(例如一個(gè)乘累加舍入操作),最后將計(jì)算結(jié)果壓入輸出FIFO(在確保先進(jìn)先出隊(duì)列不滿(mǎn)的情況下)。然后,硬件生成工具產(chǎn)生相應(yīng)的接口信號(hào)、控制邏輯和旁通邏輯等;為配置的處理器產(chǎn)生完整的RTL代碼。軟件生成工具產(chǎn)生一套完整的編譯器工具,以及時(shí)鐘周期精確的指令集仿真器ISS,用于對(duì)新指令進(jìn)行仿真。注意到,這種由設(shè)計(jì)人員定義FIFO接口和GPIO端口的能力是Xtensa可配置處理器所獨(dú)有的。
            
            圖7 采用定制先進(jìn)先出(FIFO)接口和通用輸入輸出(IO)端口的高速通信
            
            11、復(fù)雜的控制密集型代碼的執(zhí)行
            
            多媒體應(yīng)用中控制代碼的數(shù)量與復(fù)雜性顯著增長(zhǎng),使得程序中數(shù)據(jù)密集型操作與計(jì)算時(shí)間近似等價(jià)。例如,H.264主程序譯碼器中的關(guān)鍵部分為CABAC(上下文相關(guān)二進(jìn)制算術(shù)編碼)算法。該算法幾乎完全是具有數(shù)據(jù)計(jì)算和數(shù)據(jù)比較的控制流判決樹(shù)。
             由于計(jì)算的復(fù)雜性非常高,絕大多數(shù)傳統(tǒng)處理器均采用專(zhuān)用的RTL器來(lái)完成CABAC算法。然而,在可配置處理器上可以通過(guò)增加一組專(zhuān)用指令來(lái)更加有效地實(shí)現(xiàn)CABAC算法。這種實(shí)現(xiàn)方法的好處是避免了數(shù)據(jù)在處理器和RTL器之間不停地交換數(shù)據(jù)。采用可配置處理器的另一個(gè)好處是采用指令擴(kuò)展,由于專(zhuān)用硬件在處理器內(nèi)部,因此可以更好地進(jìn)行硬件和軟件界面劃分。
            
            12、小結(jié)
            
            現(xiàn)代可配置和可擴(kuò)展處理器是構(gòu)建定制和音頻的理想選擇。Tensilica公司提供相關(guān)的和音頻IP作為SOC模塊,包括HiFi 2音頻、鉆石系列標(biāo)準(zhǔn)的38xVDO(視頻)多標(biāo)準(zhǔn)和多分辨率視頻方法。與之匹配的軟件編解碼器是非常重要的。HiFi 2音頻與相關(guān)的軟件一起可完成絕大部分流行的音頻編解碼器,例如MP3、AAC、WMA等。類(lèi)似地,鉆石 38xVDO 視頻加速引擎與相應(yīng)的編碼器和譯碼器軟件可以實(shí)現(xiàn)H.264 (包括Baseline、Main和profiles)、MPEG-4 (SP 和 ASP)、 MPEG-2、VC-1/WM9及其它標(biāo)準(zhǔn)。這些視頻涵蓋了從QCIF 到CIF以及SD各種分辨率,功耗低,面積小。

          本文引用地址:http://www.ex-cimer.com/article/151313.htm

          上一頁(yè) 1 2 3 下一頁(yè)

          評(píng)論


          相關(guān)推薦

          技術(shù)專(zhuān)區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();