<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 模擬技術(shù) > 設(shè)計應(yīng)用 > 基于DSP的視頻算法系統(tǒng)優(yōu)化若干策略

基于DSP的視頻算法系統(tǒng)優(yōu)化若干策略

作者：時間：2013-05-27 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

數(shù)字視頻產(chǎn)品需求近些年出現(xiàn)猛增。主流應(yīng)用包括視頻通信、視頻監(jiān)控與工業(yè)自動化，而最熱門的要算娛樂應(yīng)用，如 DVD、HDTV、衛(wèi)星電視、標(biāo)清（SD）或高清（HD）機頂盒、數(shù)碼相機與 HD 攝像機、高端顯示器（LCD、等離子顯示器、DLP）以及個人攝像機等。這些應(yīng)用都向高質(zhì)量的視頻編解碼算法及其標(biāo)準(zhǔn)提出巨大需求，目前主流壓縮標(biāo)準(zhǔn)主要有MPEG2、MPEG4和H.264/AVC，而針對這些編解碼標(biāo)準(zhǔn)有各種各樣的實現(xiàn)方案。本文主要探討基于TI 的C64系列DSP的視頻解碼算法標(biāo)準(zhǔn)系統(tǒng)優(yōu)化過程中需要考慮的若干因素。

　　TI的C64系列DSP以其強大的處理能力被廣泛用于視頻處理領(lǐng)域，然而由于大家對C64系列DSP的結(jié)構(gòu)、指令、的理解程度不一樣，造成算法實現(xiàn)時的效果有許多的差異。具體體現(xiàn)在實現(xiàn)算法時所使用的CPU的資源上。如實現(xiàn)H.264 MP@D1解碼時所占用CPU的資源上，會有所差異，或者是所包含的算法工具子集上，如實現(xiàn)H.264 MP@D1解碼時使用CAVLC而不使用CABAC。造成這些差異，主要原因有如下因素：算法關(guān)鍵模塊的優(yōu)化

　　算法系統(tǒng)集成時Memory的管理

　　算法系統(tǒng)集成時的EDMA的資源分配管理

　　本文從這三方面逐步探討算法優(yōu)化集成中需要考慮的若干因素。算法關(guān)鍵模塊的優(yōu)化一般而言，對于目前主流視頻解壓縮標(biāo)準(zhǔn)都有類似的很消耗DSP CPU的模塊，如H.264/AVC、MPEG4、AVS等編碼中運動矢量搜索很占用資源，而且這些模塊在整個系統(tǒng)實現(xiàn)過程中調(diào)用相當(dāng)頻繁，因此我們首先找出這些模塊，這點TI的CCS提供了工程剖析工具（Profile），可以很快找到整個工程中占用DSP CPU資源最多的模塊；然后對這些模塊進行優(yōu)化。

　　對這些關(guān)鍵算法模塊的優(yōu)化我們分可以分三步進行，如圖2所示，先認(rèn)真分析這部分代碼，并進行相應(yīng)的調(diào)整，如盡量減少有判斷跳轉(zhuǎn)的代碼，特別是for循環(huán)中，判斷跳轉(zhuǎn)會打斷軟件流水。使用的方法，可是使用查表或者使用_cmpgtu4、_cmpeq4等Intrinsics來代替比較判斷指令，從而巧妙替代判斷跳轉(zhuǎn)語句。同時使用TI的CCS中所提供的#pragma提供編譯器盡量多的信息，這些信息包括for循環(huán)的次數(shù)信息、數(shù)據(jù)對齊信息等。如果經(jīng)過這部分優(yōu)化無法滿足系統(tǒng)要求，則對這部分模塊使用線性匯編實現(xiàn)，線性匯編是介于C和匯編之間的一種語言實現(xiàn)形式，可以控制指令的使用，而不必特別關(guān)心寄存器、功能單元（S、D、M、L）的分配和使用，使用線性匯編一般會比使用C語言具有更高的執(zhí)行效率。如果線性匯編還無法滿足要求，則使用匯編實現(xiàn)，要編寫出高并行、深軟件流水的匯編需要經(jīng)過畫相關(guān)圖，創(chuàng)建時序表（Scheduling table）等步驟，由于篇幅所限，這里就不熬述。基于DSP的視頻算法系統(tǒng)優(yōu)化若干策略

　　表1使用方式周期數(shù)

　　C+Intrinsics83

　　線性匯編74

　　匯編57

　　優(yōu)化選項：-pm， -o3，基于C64plus內(nèi)核，C+Instrinsics 是指在C中使用Instrinsics。

　　表1是運動搜索中所需要的計算16×16宏塊SAD值時，不同方式下所消耗的DSP CPU的周期數(shù)。由此可見，匯編實現(xiàn)所消耗的CPU的周期數(shù)最少，但前提是需要充分了解DSP CPU的結(jié)構(gòu)、指令以及算法模塊的結(jié)構(gòu)，從而能夠編寫出高并行、深軟件流水的匯編，否則有可能所寫出的匯編還沒有線性匯編或者C效率更高。為此一個行之有效的方法是，充分利用TI所提供的算法庫中的函數(shù)，因為算法庫中的函數(shù)都是已經(jīng)充分優(yōu)化過的算法模塊，而且大都提供對對應(yīng)的C、線性匯編和匯編源代碼，并有文檔進行API介紹。算法系統(tǒng)集成時Memory的管理由于在基于DSP的嵌入式系統(tǒng)開發(fā)中，存儲資源特別是片內(nèi)高速存儲資源有限，在算法系統(tǒng)集成時Memory的管理對于提高整個系統(tǒng)的優(yōu)化是非常重要的，這一方面影響數(shù)據(jù)的讀取、搬移速度；另一方面還影響Cache的命中率，下面分程序和數(shù)據(jù)兩方面分析。

　　程序區(qū)：最大原則是將經(jīng)常調(diào)度使用的算法模塊放片內(nèi)。為做到這點，TI的CCS中提供了#pragma CODE_SECTION，可以把需要單獨控制存放的函數(shù)段從.text段中獨立出來，從而在.cmd文件中對這些函數(shù)段進行單獨物理地址映射。還可以使用程序動態(tài)的方式，將需要運行的代碼段先調(diào)度進片內(nèi)memory，如H.264/AVC中CAVLC和CABAC兩個算法模塊具有互斥性，因此可以將這兩個算法模塊放在片外而且對應(yīng)于片內(nèi)同一塊運行區(qū)，在運行其中某一個算法模塊之前，先將其調(diào)入片內(nèi)，從而充分利用片內(nèi)有限的高速存儲區(qū)。程序區(qū)的管理考慮到一級程序Cache（L1 P）的命中率，最好將具有先后執(zhí)行順序的函數(shù)按地址先后順序配置在程序空間中，同時對代碼比較大的處理函數(shù)將其拆分成小函數(shù)。

　　數(shù)據(jù)區(qū)：在視頻標(biāo)準(zhǔn)編解碼中，由于數(shù)據(jù)塊都很大，如一幀D1 4:2：0的圖像有622k大小，而且在編解碼中都需要開3~5幀甚至更多的緩沖幀，因此數(shù)據(jù)基本上無法在片內(nèi)存放。為此在系統(tǒng)的Memory優(yōu)化管理中，需要開C64系列DSP的二級Cache（對于TMS320DM642用于視頻編解碼中二級Cache開64k的情況比較多）。同時最好將放片外的被Cache所映射的視頻緩沖區(qū)的數(shù)據(jù)以128 byte對齊，這是因為C64系列的DSP的二級Cache的每行大小為128 byte，以128 byte對齊有利于Cache的刷新和一致性維護。算法系統(tǒng)集成時的EDMA的資源分配管理由于在視頻處理中，會經(jīng)常有塊數(shù)據(jù)的搬移，而且C64系列DSP提供了EDMA，邏輯上有64個通道，因此對EDMA的配置使用對優(yōu)化系統(tǒng)是非常重要的。為此可以使用下述步驟進行充分配置系統(tǒng)的EDMA資源。1. 統(tǒng)計系統(tǒng)中各種需要使用EDMA的情況及其大概需要占用的EDMA物理總線的時間，如表2所示：

基于DSP的視頻算法系統(tǒng)優(yōu)化若干策略

　　注意：該表針對視頻通過視頻端口（Video Port）（720*480，4:2：0，30Frame/s），音頻通過McBSP（采樣率為44k）進入DSP，壓縮好的數(shù)據(jù)數(shù)率在2Mbps左右，數(shù)據(jù)通過PCI每488uS輸出一個128byte的包（PCI口工作頻率為33MHz），外掛SDRAM的時鐘頻率為133MHz，只做一個參考應(yīng)用例子。 2. 統(tǒng)計好這些信息后，需要依據(jù)系統(tǒng)對各種碼流實時性、及其傳輸數(shù)據(jù)塊大小對各個被使用的EDMA通道進行優(yōu)先級分配。一般而言，由于音頻流傳輸塊小，因此占用EDMA總線的時間短，而視頻傳輸塊比較大，占用EDMA總線的時間較長，因此將輸入音頻所對應(yīng)的EDMA通道的優(yōu)先級設(shè)定為Q0（urgent），視頻的優(yōu)先級設(shè)定為Q2（medium），輸出碼流所對應(yīng)的EDMA通道的優(yōu)先級設(shè)定為Q1（high），音視頻算法處理中所調(diào)度的QDMA的優(yōu)先級設(shè)定為Q3（low）。當(dāng)然這些設(shè)定在真正系統(tǒng)應(yīng)用中可能還需要調(diào)整的。實際的基于TI DSP視頻算法優(yōu)化集成過程，會是基于圖1所示的步驟，先初步配置Memory，并選擇相應(yīng)編譯優(yōu)化選項，如果編譯的結(jié)果已經(jīng)可以達(dá)到實時性要求之后就結(jié)束后面的優(yōu)化；否則開始優(yōu)化Memory和EDMA的配置，從而提高對Cache和內(nèi)部總線的利用率；如果還無法達(dá)到要求則通過剖析整個工程確定消耗CPU資源最高的代碼段或者函數(shù)，對這些關(guān)鍵模塊進行優(yōu)化，采用線性匯編、甚至匯編直到整個系統(tǒng)可以滿足要求為止。

矢量控制相關(guān)文章:矢量控制原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： DSP 視頻算法 系統(tǒng)優(yōu)化

評論

相關(guān)推薦

進芯電子攜多款DSP芯片及消費電子解決方案亮相2024中國制冷展

工控自動化進芯電子 DSP 中國制冷展 | 2024-04-10

DSP 入門教程

資源下載 TI DSP 選型技術(shù)介紹 | 2007-12-14

TMS320LF240x DSP應(yīng)用程序設(shè)計教程

資源下載 TI TMS320LF240x DSP 應(yīng)用程序設(shè)計 | 2007-12-08

愛威-愛威DSP-2090放大器環(huán)繞聲電路(三)

設(shè)計方案愛威 DSP-2090 放大器環(huán)繞 | 2009-08-06

2023年慕尼黑華南電子展：EEPW&北京中科昊芯科技有限公司

嵌入式系統(tǒng) 中科昊芯數(shù)字信號處理器 RISC-V DSP | 2023-11-02

DSP.....ARM仿真器之后你還需要什么工具？

電子陽光 | 2004-11-04

DSP芯片的原理與開發(fā)應(yīng)用

資源下載 TI DSP 開發(fā)原理 | 2007-12-15

DSP芯片介紹

資源下載 TI DSP 芯片介紹 | 2007-12-16

TI DSP開發(fā)工具CCS上AET調(diào)試功能

視頻 TI DSP DSP AET CCS | 2009-10-16

C64+ 系列DSP上Cache 的應(yīng)用（第一部分）

視頻 TI DSP C64+ Cache | 2009-10-16

恩智浦SAF9xxx發(fā)布，汽車AI音頻處理升級！

汽車電子汽車音頻 DSP SDV 汽車娛樂系統(tǒng) | 2024-06-21

充電器算法復(fù)雜傳統(tǒng)MCU難以勝任？不如試試這些集成DSP內(nèi)核的MCU

嵌入式系統(tǒng) DSP MCU | 2024-05-15

AMD Kria K24 SOM：為邊緣應(yīng)用節(jié)約功耗、縮小尺寸

嵌入式系統(tǒng) DSP 邊緣應(yīng)用 Kria K24 SOM | 2023-10-27

通信接收機：DSP、軟件無線電和設(shè)計

資源下載 DSP 軟件無線電通信接收機 | 2007-12-11

[求助]各位大蝦有用ARM＋DSP開發(fā)模式的么？

ping1125 | 2005-03-03

Cadence擴充Tensilica Vision產(chǎn)品線，新增毫米波雷達(dá)加速器及針對汽車應(yīng)用優(yōu)化的新款DSP

EDA/PCB Cadence Tensilica Vision 毫米波雷達(dá)加速器 DSP | 2024-03-05

小弟想買一塊ARM+DSP開發(fā)板，大家能不能幫忙介紹一下！

wuren_13 | 2004-11-08

愛威-愛威DSP-2090放大器揚聲器保護電路

設(shè)計方案愛威 DSP-2090 放大器揚聲器保護 | 2009-08-06

華為最強科普：什么是DSP？

嵌入式系統(tǒng) DSP | 2024-05-20

愛威-愛威DSP-2090放大器環(huán)繞聲電路(四)

設(shè)計方案愛威 DSP-2090 放大器環(huán)繞 | 2009-08-06

愛威-愛威DSP-2090放大器環(huán)繞聲電路(二)

設(shè)計方案愛威 DSP-2090 放大器環(huán)繞 | 2009-08-06

“進芯電子”為DSP電機控制帶來國風(fēng)新勢力

工控自動化 202405 進芯 DSP 電機控制 | 2024-04-17

高性能系列DSP上TCP2/VCP2協(xié)處理器

視頻 TI DSP VCP2 TCP2 協(xié)處理器 | 2009-10-16

專為客戶設(shè)計的高性能器件系列

視頻 TI DSP TMS320C6474 C6474 AIF | 2009-10-16

小弟想買一塊ARM+DSP開發(fā)板，大家能不能幫忙介紹一下！

wuren_13 | 2004-11-08

愛威-愛威DSP-2090放大器環(huán)繞聲電路(一)

設(shè)計方案愛威 DSP-2090 放大器環(huán)繞 | 2009-08-06

[求助]關(guān)于transtech-dsp？？？

fancy_wind | 2004-10-29

本土廠商難舍DSP情懷

嵌入式系統(tǒng) DSP 嵌入式微處理器數(shù)字信號處理 | 2024-01-16

C64+ 系列DSP上Cache 的應(yīng)用（第二部分）

視頻 TI DSP C64+ Cache | 2009-10-16

如何在ADI DSP中設(shè)計一個合理的混響？

模擬技術(shù) ADI DSP 混響 | 2024-01-30

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();