<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          關(guān) 閉

          新聞中心

          EEPW首頁 > 工控自動化 > 設(shè)計(jì)應(yīng)用 > 基于龍芯3B的H.264解碼器的向量化

          基于龍芯3B的H.264解碼器的向量化

          作者: 時間:2010-12-15 來源:網(wǎng)絡(luò) 收藏

          3 ffmpeg的
          3.1 ffmpeg的oprofile測試
          使用oprofile對ffmpeg解碼視頻“問道武當(dāng)002.mkv”的過程進(jìn)行測試,測試結(jié)果如表2所示。表2列出了各個函數(shù)的調(diào)用過程以及運(yùn)行時間所占的比重。而針對ffmpeg進(jìn)行的化工作,則主要是針對oprofile測試結(jié)果中執(zhí)行時間較長、運(yùn)行比重較大的幾個函數(shù)的化。

          b.JPG
          上述函數(shù)的執(zhí)行時間幾乎占據(jù)了ffmpeg執(zhí)行時間的60%,因而針對上述幾個函數(shù)進(jìn)行向量化,就完全可以達(dá)到提升ffmpeg整體解碼速度的目的。
          3.2 針對的ffmpeg向量化
          3.2.1 向量化方法
          實(shí)現(xiàn)ffmpeg上的向量化主要是使用擴(kuò)展的向量指令來改進(jìn)3.1節(jié)中oprofile測試結(jié)果中執(zhí)行時間比重較大的幾個函數(shù)。而且在向量化的同時,同樣可以使用一些優(yōu)化策略,來提高向量化后的函數(shù)的性能。主要使用到的優(yōu)化方法包括:
          (1)循環(huán)展開。循環(huán)展開是一種循環(huán)變換技術(shù),將循環(huán)體中的指令復(fù)制多份,增加循環(huán)體中的代碼量,減少循環(huán)的重復(fù)次數(shù)。需要說明的是,循環(huán)展開本身并不能直接提升程序的性能。
          使用循環(huán)展開的主要目的是充分挖掘指令或者數(shù)據(jù)間的并行性。其中向量擴(kuò)展指令的使用就是利用了展開后的循環(huán)體內(nèi)數(shù)據(jù)的并行性;而在展開后的循環(huán)內(nèi)使用指令調(diào)度和軟件流水技術(shù)則是為了充分利用指令間的并行性。
          (2)指令調(diào)度。循環(huán)展開后的循環(huán)體內(nèi)的指令數(shù)目增多,因而可以進(jìn)行指令調(diào)度,將不存在操作數(shù)相關(guān)性和不存在運(yùn)算部件相關(guān)性的指令調(diào)度到一起,這樣可以充分發(fā)揮龍芯3B的流水線性能,從而提高代碼在龍芯3B上的執(zhí)行速度。
          除了使用龍芯3B的向量擴(kuò)展指令和使用上述兩種優(yōu)化方法以外,同樣還可以根據(jù)具體函數(shù)的特點(diǎn),使用其他一些優(yōu)化方法進(jìn)行優(yōu)化,比如使用邏輯運(yùn)算和移位運(yùn)算來代替乘法運(yùn)算等。針對每個函數(shù)的向量化優(yōu)化在3.2.2小節(jié)中介紹。
          3.2.2 針對具體函數(shù)的向量化
          3.2.1小節(jié)概述了向量化時用到的一些優(yōu)化方法,本節(jié)則針對oprofile測試中比重較大的幾個函數(shù)進(jìn)行有針對性的優(yōu)化。
          對于表2中的函數(shù),我們可以根據(jù)函數(shù)名將其分類,函數(shù)命名類似的函數(shù)基本上都可以使用類似的優(yōu)化方法。
          (1)簡單向量化。對于1號和2號函數(shù)的優(yōu)化,本文都采用了使用移位運(yùn)算來代替乘法運(yùn)算的策略,并且針對循環(huán)內(nèi)部運(yùn)算的有界特性,使用飽和向量運(yùn)算來改進(jìn)。不過對于2號函數(shù)的訪存操作,由于存在著數(shù)據(jù)非對齊的情況,因而使用額外的向量指令對數(shù)據(jù)進(jìn)行打包和回寫。而3號函數(shù)則是1號和2號函數(shù)的混合,因而對1號和2號函數(shù)的優(yōu)化間接提升了3號函數(shù)的性能。
          而對于4號、5號和6號函數(shù),本文僅對其內(nèi)層循環(huán)使用了循環(huán)展開和指令調(diào)度策略,就能夠取得不錯的運(yùn)算效果。
          同樣,對于11和12號函數(shù)也可以比較直觀的進(jìn)行向量化,在此就不做詳述了。
          (2)間接向量化。而對于比較難于向量化的7號和8號函數(shù),本文分別采用了使用掩碼和使用矩陣轉(zhuǎn)置運(yùn)算的策略來間接實(shí)現(xiàn)向量化。
          其中針對函數(shù)h264 v loop filter luma的C語言實(shí)現(xiàn)中有很多判斷語句的問題,本文使用構(gòu)建掩碼的方式來消除這些判斷語句。
          c.JPG

          以圖1(a)中的循環(huán)為例介紹掩碼的構(gòu)建。而圖1(b)所示為代替該循環(huán)的向量指令。具體的運(yùn)算結(jié)果如圖1(c)所示:將p向量(數(shù)組)和q向量做飽和減法(結(jié)果為負(fù)的都置為0),得到的結(jié)果向量如Vsub所示。使用Vsub與零向量進(jìn)行比較來設(shè)置掩碼:結(jié)果為真,掩碼值為0xFF;反之,結(jié)果為假,掩碼為0。最后將掩碼值與p向量進(jìn)行與操作,就可以得到該循環(huán)的運(yùn)算結(jié)果。
          使用構(gòu)建掩碼的方法來消除判斷語句,不但減少了由判斷引起的時間開銷,而且重要的是間接將循環(huán)進(jìn)行了向量化,提高了函數(shù)性能。而對于9號和10號函數(shù),可以使用同樣的方法來改進(jìn)。
          而對于8號函數(shù),由于運(yùn)算處理的是連續(xù)的數(shù)據(jù),因而無法進(jìn)行向量化。使用矩陣轉(zhuǎn)置的方式,將數(shù)據(jù)重新打包后,就可以進(jìn)行相應(yīng)的向量運(yùn)算。
          d.JPG

          對于圖2(a)中的運(yùn)算,原始計(jì)算是P向量內(nèi)部的運(yùn)算,因而無法向量化,我們用向量指令將p向量轉(zhuǎn)置為q,其中q0存放p中標(biāo)號為1的數(shù)據(jù),q1存放P中標(biāo)號為2的數(shù)據(jù),依此類推。轉(zhuǎn)置得到的q向量就可以用圖2(b)中的向量指令運(yùn)算,得到的運(yùn)算結(jié)果與原來的運(yùn)算相同。
          對于13~15號函數(shù)的優(yōu)化,同樣使用到了上面的轉(zhuǎn)置方法。而4.1節(jié)的測試結(jié)果則說明了各個函數(shù)的優(yōu)化效果。


          關(guān)鍵詞: 龍芯3B 解碼器 向量

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();