<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 電源與新能源 > 設(shè)計應(yīng)用 > 基于GPU的數(shù)字圖像并行處理研究

基于GPU的數(shù)字圖像并行處理研究

—— Parallel Image Processing Based on GPU

作者：蓋素麗河北省應(yīng)用數(shù)學(xué)研究所時間：2009-02-25 來源：電子產(chǎn)品世界

英飛凌汽車電子生態(tài)圈
- 掃碼關(guān)注
  獲取最新最全汽車電子
  技術(shù)方案與實用技巧

收藏

摘要：針對像素級圖像處理算法并行化程度高的特點，利用GPU的并行流處理特性和可編程性，提出了基于GPU的數(shù)字圖像并行化處理方法，并對其基本執(zhí)行流程和其中的關(guān)鍵技術(shù)問題：數(shù)據(jù)加載，結(jié)果反饋、保存等進行了詳細論述。最后通過圖像的卷積運算驗證了GPU的并行處理能力。
關(guān)鍵詞：GPU；片元程序；Cg；并行處理

本文引用地址：http://www.ex-cimer.com/article/91684.htm

GPU并行化處理

　　可編程圖形處理器（Programmable Graphic Process Unit, PGPU）是目前計算機上普遍采用的圖形圖像處理專用器件，具有單指令流多數(shù)據(jù)流（SIMD）的并行處理特性，而且提供了完全支持向量操作指令和符合IEEE32位浮點格式的頂點處理能力和像素處理能力，已經(jīng)成為了一個強大的并行計算單元。研究人員將其應(yīng)用于加速科學(xué)計算和可視化應(yīng)用程序，取得了令人鼓舞的研究成果。

　　與CPU相比，GPU具有以下優(yōu)勢：強大的并行處理能力和高效率的數(shù)據(jù)傳輸能力[1] [2] [7]。其中，并行性主要體現(xiàn)了指令級、數(shù)據(jù)級和任務(wù)級三個層次。高效率的數(shù)據(jù)傳輸主要體現(xiàn)在兩個方面： GPU與顯存之間的帶寬為：16GB/s；系統(tǒng)內(nèi)存到顯存的帶寬為：4GB/s。

　　總上所述，GPU比較適合處理具有下面特性的應(yīng)用程序：1、大數(shù)據(jù)量；2、高并行性；3、低數(shù)據(jù)耦合；4、高計算密度；5、與CPU交互比較少。

數(shù)字圖像處理的并行化分析

　　數(shù)字圖像處理算法多種多樣，但從數(shù)據(jù)處理的層面來考慮，可以分為：像素級處理、特征級處理和目標(biāo)級處理三個層次[3][4]。

（1）像素級圖像處理

　　像素級處理，即由一幅像素圖像產(chǎn)生另一幅像素圖像，處理數(shù)據(jù)大部分是幾何的、規(guī)則的和局部的。根據(jù)處理過程中的數(shù)據(jù)相關(guān)性，像素級處理又可進一步分為點運算、局部運算和全局運算。

（2）特征級圖像處理

　　特征級處理是在像素圖像產(chǎn)生的一系列特征上進行的操作。常用的特征包括：形狀特征、紋理特征、梯度特征和三維特征等，一般采用統(tǒng)一的測度，如：均值、方差等，來進行描述和處理，具有在特征域內(nèi)進行并行處理的可能性。但是，由于其特征具有象征意義和非局部特性，在局部區(qū)域并行的基礎(chǔ)上，需要對總體進行處理。利用GPU實現(xiàn)并行化處理的難度比較大。

（3）目標(biāo)級圖像處理

　　目標(biāo)級處理是對由一系列特征產(chǎn)生的目標(biāo)進行操作。由于目標(biāo)信息具有象征意義和復(fù)雜性，通常是利用相關(guān)知識進行推理，得到對圖像的描述、理解、解釋以及識別。由于其數(shù)據(jù)之間相關(guān)性強，且算法涉及到較多的知識和人工干預(yù)，并行處理的難度也比較大。

　　由此可見，整個圖像處理的結(jié)構(gòu)可以利用一個金字塔模型來表示。在底層，雖然處理的數(shù)據(jù)量巨大，但由于局部數(shù)據(jù)之間的相關(guān)性小，且較少的涉及知識推理和人工干預(yù)，因此大多數(shù)算法的并行化程度比較高。當(dāng)沿著這個金字塔結(jié)構(gòu)向高層移動時，隨著抽象程度的提高，大量原始數(shù)據(jù)減少，所需的知識和算法的復(fù)雜性逐層提高，并行化處理的難度也逐漸加大。

　　由于絕大部分的圖像處理算法是在像素級進行的，且GPU的SIMD并行流式處理在進行像素級的圖像處理時具有明顯的優(yōu)勢，而特征級和目標(biāo)級處理無論是從數(shù)據(jù)的表達還是從算法自身的實現(xiàn)來說，都很難實現(xiàn)GPU并行化。因此，本文重點研究各種像素級圖像處理操作的GPU并行化實現(xiàn)方法。

數(shù)字圖像GPU并行化處理的基本流程與關(guān)鍵技術(shù)

　　現(xiàn)代GPU提供了頂點處理器和片段處理器兩個可編程并行處理部件。在利用GPU執(zhí)行圖像處理等通用計算任務(wù)時，要做的主要工作是把待求解的任務(wù)映射到GPU支持的圖形繪制流水線上。通常的方法是把計算任務(wù)的輸入數(shù)據(jù)用頂點的位置、顏色、法向量等屬性或者紋理等圖形繪制要素來表達，而相應(yīng)的處理算法則被分解為一系列的執(zhí)行步驟，并改寫為GPU的頂點處理程序或片段處理程序，然后，調(diào)用3D API執(zhí)行圖形繪制操作，調(diào)用片段程序進行處理；最后，保存在幀緩存中的繪制結(jié)果就是算法的輸出數(shù)據(jù)，如圖1所示[5][6]。

圖1 遙感影像GPU并行化處理基本流程

　　雖然數(shù)字圖像處理算法多種多樣，具體實現(xiàn)過程也很不相同，但是在利用GPU進行并行化處理時，有一些共性的關(guān)鍵技術(shù)問題需要解決，如：數(shù)據(jù)的加載，計算結(jié)果的反饋、保存等。下面對這些共性的問題進行分析，并提出相應(yīng)的解決思路。

數(shù)據(jù)加載

　　在GPU的流式編程模型中，所有的數(shù)據(jù)都必須以“流”的形式進行加載處理，并通過抽象的3D API進行訪問。在利用GPU進行圖像處理時，最直接有效的數(shù)據(jù)加載方法是把待處理的圖像打包為紋理，在繪制四邊形時進行加載、處理。同時為了保證GPU上片段程序能夠逐像素的對紋理圖像進行處理，必須將投影變換設(shè)置為正交投影，視點變換的視區(qū)與紋理大小相同，使得光柵化后的每個片段（fragment）和每個紋理單元（texel）一一對應(yīng)。

　　對于圖像處理算法中的其他參數(shù)，如果數(shù)據(jù)量很小，則可以直接通過接口函數(shù)進行設(shè)置；如果參數(shù)比較多，也應(yīng)該將其打包為紋理的形式傳輸給GPU。在打包的過程中應(yīng)充分利用紋理圖像所具有的R、G、B、A四個通道。

計算結(jié)果的反饋、保存

　　應(yīng)用程序是通過調(diào)用3D API繪制帶紋理的四邊形，激活GPU上的片段程序進行圖像處理的，而GPU片段著色器的直接渲染輸出是一個幀緩沖區(qū)，它對應(yīng)著計算機屏幕上的一個窗口，傳統(tǒng)上用來容納要顯示到屏幕的像素，但是在GPU流式計算中可以用來保存計算結(jié)果。雖然CPU可以通過3D API直接讀寫這個幀緩沖區(qū)，將渲染處理的結(jié)果從幀緩存中復(fù)制到系統(tǒng)內(nèi)存進行保存，但是幀緩存的大小受窗口大小限制，而且由于AGP總線的帶寬限制（2.1GB/s），從顯存到系統(tǒng)內(nèi)存的數(shù)據(jù)回讀操作效率低下。對于大幅影像的處理應(yīng)用是顯然不適合的，特別是在中間計算結(jié)果的保存反饋時，采用幀緩存方式將成為制約GPU性能發(fā)揮的最主要瓶頸。

　　針對以上問題，筆者利用離線渲染緩存Pbuffer作為輸出緩存。Pbuffer是OpenGL1.3版本的WGL_ARB_pbuffer擴展提供的輸出緩存，它通過在顯存中開辟一個不可見的數(shù)據(jù)緩沖區(qū)，取代幀緩存來保存片段處理器的輸出結(jié)果。如果這個結(jié)果只是中間計算數(shù)據(jù)，還可以采用渲染到紋理的技術(shù)，把Pbuffer中的數(shù)據(jù)綁定到一個紋理，供下一遍繪制的片段程序取用，減少數(shù)據(jù)在顯存和系統(tǒng)內(nèi)存之間的傳輸，實現(xiàn)整個數(shù)據(jù)流在GPU芯片內(nèi)部的流轉(zhuǎn)，顯著提高數(shù)據(jù)的反饋速度。特別是在需要GPU反復(fù)執(zhí)行的情況下，可以構(gòu)造兩個Pbuffer，交替的作為輸入或輸出紋理使用，產(chǎn)生所謂的“Ping-Pong”方法，有效避免中間計算結(jié)果的回讀操作。

圖像卷積運算的GPU并行化試驗

　　卷積運算是一種常見的數(shù)字圖像處理局部運算，通過選擇不同的卷積核，可以實現(xiàn)不同的圖像處理效果。圖像卷積運算定義為：

　　式中，為卷積運算以后的圖像；為待處理的圖像；為卷積核；T為常數(shù)，當(dāng)卷積核中所有系數(shù)之和不為零時，T等于所有系數(shù)之和，否則等于1。

試驗平臺與數(shù)據(jù)

　　硬件平臺為： Intel Core 2 2.0GHz CPU，1GB系統(tǒng)內(nèi)存，NVIDIA公司的GeForce G0 7400 GPU， 512MB顯存。

　　軟件平臺：Windows XP操作系統(tǒng)，CPU程序開發(fā)環(huán)境為Microsoft Visual C++2005，三維繪制接口為OpenGL及其擴展庫WGL_ARB_pbuffer，GPU程序開發(fā)語言為Cg。

　　所采用的試驗數(shù)據(jù)有兩組，如圖2所示：

　　第一組為：截取的新加坡部分地區(qū)QucikBird衛(wèi)星影像，大小為（像素）；

　　第二組為：截取的黃河小浪底部分地區(qū)Spot4衛(wèi)星影像，大小為（像素）。

（a）試驗數(shù)據(jù)一

（b）試驗數(shù)據(jù)二
圖2 卷積運算試驗數(shù)據(jù)

試驗步驟與數(shù)據(jù)記錄

　　為了進行多組數(shù)據(jù)的對比試驗，首先對原始圖像數(shù)據(jù)進行預(yù)處理，通過裁減獲得大小分別為2048×2048、1024×1024、521×512、256×256、128×128的試驗數(shù)據(jù)。

　　以經(jīng)過預(yù)處理的10幅不同大小的圖像進行卷積運算對比試驗，分別運行卷積平滑和卷積銳化的CPU和GPU程序，并記錄處理時間。試驗所用的平滑卷積核h1為式(2)，銳化卷積核h2為式(3)：

試驗結(jié)果與分析

　　圖3所示為圖像數(shù)據(jù)二512×512的平滑和銳化試驗的處理結(jié)果，圖4為GPU加速效率對比圖。

（a）卷積平滑后圖像

（b）卷積銳化后圖像
圖3 數(shù)據(jù)二的圖像平滑、銳化效果對比

圖4 卷積運算GPU加速效率對比圖

　　從圖4可以看出：隨著圖像的增大，特別是卷積核的變大，GPU的加速效果更加明顯，例如：對2048×2048大小的圖像進行5×5的卷積運算，最高加速比達到了8倍多。但是，在圖像數(shù)據(jù)較小時，由于OpenGL的初始化和紋理數(shù)據(jù)的加載耗費了大量的時間，使得GPU并行處理的優(yōu)勢消失，甚至還沒有CPU處理的速度快。

結(jié)語

　　本文對GPU的并行性和數(shù)字圖像處理算法的并行層次進行了簡要的介紹，提出了像素級圖像處理的GPU并行化實現(xiàn)方法，并對其基本流程和關(guān)鍵技術(shù)：數(shù)據(jù)的加載，計算結(jié)果的反饋與保存等問題進行了詳細論述，最后通過圖像的平滑和銳化的卷積運算證明了GPU在數(shù)字圖像并行化處理方面的強大優(yōu)勢。

參考文獻：

[1] 柳有權(quán)．基于物理的計算機動畫及其加速技術(shù)的研究[D]．北京：中國科學(xué)院研究生院博士論文，2005．
[2] 譚久宏、周維超、吳欽章．基于GPU的數(shù)字圖像處理[J]．科教文匯，2006,4:178-179.
[3] 盧麗君、廖明生、張路．分布式并行計算技術(shù)在遙感數(shù)據(jù)處理中的應(yīng)用[J]．測繪信息與工程，2005，30(3)：1-3．
[4] DOWNTON A, CROOKES D. Parallel Architectures for Image Processing [J]. Electronics and Communication Engineering Journal, 1998, 10(3):139-151.
[5] 龔敏敏．GPU精粹2—高性能圖形芯片和通用計算編程技巧（譯）[M]．北京:清華大學(xué)出版社，2007．
[6] 洪偉、劉亞妮、李騎、丁蓮珍．Cg教程—可編程實時圖形權(quán)威指南（譯）[M]．北京：人民郵電出版社，2004：7-10．
[7] 吳恩華．圖形處理器用于通用計算的技術(shù)、現(xiàn)狀及其挑戰(zhàn)[J]．軟件學(xué)報，2004，15(10)：1493-1504．

c++相關(guān)文章:c++教程

模數(shù)轉(zhuǎn)換器相關(guān)文章:模數(shù)轉(zhuǎn)換器工作原理

全息投影相關(guān)文章:全息投影原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： GPU 數(shù)字圖像處理 200902

評論

相關(guān)推薦

英偉達 RTX 50 系列顯卡被曝推遲，需重新流片以提升良率

智能計算臺積電英偉達 GPU | 2024-09-03

大嘴業(yè)話：A12真的能改變競爭格局么？

視頻 ARM A12 GPU | 2013-06-21

英偉達 RTX 5090 顯卡功耗被曝為 600W：比前代高 150W，增幅 33%

智能計算英偉達 GPU 計算平臺 | 2024-09-06

這顆芯片有故事，你有酒嗎？

FPGAwuhan | 2016-08-20

RISC-V為開源GPU鋪平道路

風(fēng)的印記 | 2021-08-16

首批 8 款 GDDR6 顯存版 GeForce RTX 4070 顯卡登場，包裝上未明確標(biāo)注顯存類型

消費電子顯卡英偉達 DDR6 GPU | 2024-08-22

CPC亮相ODCC，攜手英偉達為GPU提供液體冷卻技術(shù)以加速AI計算

網(wǎng)絡(luò)與存儲 CPC ODCC 英偉達 GPU 液體冷卻 AI計算 | 2024-09-02

GPU和CPU芯片誰更復(fù)雜?

睡夢中的雄師 | 2023-08-24

Manpower代招上海 US MNC GPU Physical design technical leader

魔都獵頭招聘 | 2013-07-23

數(shù)字圖像處理程序集

資源下載數(shù)字圖像處理數(shù)學(xué)形態(tài)學(xué) 腐蝕膨脹骨架化開閉運算 | 2007-04-19

Imagination推出性能最高且具有高等級功能安全性的汽車GPU IP

汽車電子 imagination GPU 汽車電子智能座艙 | 2024-09-14

一種嵌入式可視倒車裝置的設(shè)計

設(shè)計方案可視倒車裝置 pxa270 數(shù)字圖像處理 | 2015-08-16

帶有DSP芯片的新型實時數(shù)字圖像處理系統(tǒng)

資源下載數(shù)字圖像處理 DSP處理器實時系統(tǒng) | 2007-04-19

數(shù)字圖像處理實驗指導(dǎo)書

資源下載數(shù)字圖像處理實驗指導(dǎo) | 2007-04-19

DSP-BIOS在數(shù)字圖像處理中的應(yīng)用

資源下載 DSP BIOS 數(shù)字圖像處理 | 2007-04-19

GPU的形態(tài)已徹底改變，英偉達GTC大會發(fā)布的到底是什么

視頻英偉達 GPU Blackwell AI GTC | 2024-03-26

GPU企業(yè)象帝先回應(yīng)公司全員被裁

智能計算 GPU 象帝先 | 2024-09-02

地表最強芯片英偉達CEO黃仁勛：Blackwell四季度量產(chǎn)

智能計算英偉達 GPU Blackwell GPU架構(gòu) | 2024-08-29

浙江大學(xué)本科論文：數(shù)字圖像中基于值的景象提取算法研究

資源下載數(shù)字圖像處理景象提取透明度(α值) 前、背景合成 | 2007-04-19

消息稱 AMD 現(xiàn)規(guī)劃 4 款 RDNA 4 顯卡，28 WGP 型號對應(yīng) NAVI 48 XT

消費電子 AMD.GPU RDNA 4 架構(gòu) | 2024-08-27

談GPU的作用、原理及與CPU、DSP的區(qū)別

設(shè)計方案 GPU CPU DSP 緩存體系 3 | 2015-08-13

gpu_gpu是什么意思

dolphin | 2014-06-12

Imagination GPU為邊緣智能提供高效率的加速

EDA/PCB Imagination GPU 邊緣智能 | 2024-09-11

基于GPU的數(shù)字圖像并行處理研究

設(shè)計方案圖像處理算法并行流處理 GPU | 2015-08-13

AI芯片獨角獸最新產(chǎn)品比英偉達GPU快20倍

智能計算 AI芯片英偉達 GPU Cerebras Systems | 2024-08-28

基于MATLAB的車牌識別系統(tǒng)設(shè)計

設(shè)計方案數(shù)字圖像處理牌照識別 Mat-lab 車 | 2015-06-25

醫(yī)療電子平臺選擇:FPGA、ARM、X86、DSP還是GPU分析

設(shè)計方案 FPGA ARM DSP GPU X | 2015-08-13

Intel 收購 NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動處理 | 2012-12-26

《E點冷知識》：引發(fā)AI行業(yè)大地震的CUDA究竟有多強大

視頻英偉達 GPU CUDA AI | 2024-03-26

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();