<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 實(shí)戰(zhàn)技巧，Mali GPU編程特性及二維浮點(diǎn)矩陣運(yùn)算并行優(yōu)化詳解

實(shí)戰(zhàn)技巧，Mali GPU編程特性及二維浮點(diǎn)矩陣運(yùn)算并行優(yōu)化詳解

作者：時(shí)間：2015-08-17 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

收藏

　　筆者將clEnqueueNDRangeKernel函數(shù)中工作組大小參數(shù)設(shè)置為NULL，由Mali GPU硬件自動(dòng)確定最佳的工作組大小。由于內(nèi)核中每次會(huì)連續(xù)讀取4個(gè)浮點(diǎn)數(shù)值湊成float4類(lèi)型的數(shù)據(jù)，所以對(duì)于矩陣的寬度不是4的倍數(shù)的情況需要進(jìn)行特殊處理，可在主機(jī)端首先將輸入矩陣A修改為N行N/4+4列，將矩陣B修改為N/4+4行N列，多出的矩陣部分均以0補(bǔ)齊，這樣既不影響計(jì)算結(jié)果，也不會(huì)影響線(xiàn)程的分配方案，實(shí)現(xiàn)并行方案的內(nèi)核函數(shù)如下所示：

本文引用地址：http://www.ex-cimer.com/article/278831.htm

　　

　　本文采用Arndale Board開(kāi)發(fā)板作為測(cè)試平臺(tái)，軟件平臺(tái)采用Linaro機(jī)構(gòu)為Arndale Board定制的基于Ubuntu的嵌入式Linux操作系統(tǒng)，其內(nèi)核版本為3.10.37，實(shí)驗(yàn)時(shí)使用arm-linux-gnueabihf工具鏈對(duì)程序進(jìn)行編譯。不同規(guī)模的二維浮點(diǎn)矩陣乘法運(yùn)算在A(yíng)RM Cortex-A15 CPU上的串行方案和Mali-T604 GPU上的并行方案的測(cè)試結(jié)果如面的表1所示，為不失一般性，測(cè)試時(shí)輸入矩陣內(nèi)容為隨機(jī)值，每種不同矩陣大小的測(cè)試項(xiàng)進(jìn)行10次測(cè)試，將測(cè)試值的平均值作為測(cè)試結(jié)果。

　　

　　上表僅列出了輸入量較大時(shí)的測(cè)試結(jié)果，筆者實(shí)際測(cè)試時(shí)，發(fā)現(xiàn)輸入數(shù)據(jù)量較小的時(shí)候，并行方案沒(méi)有串行方案的效率高，因?yàn)橛?jì)算過(guò)程大部分都消耗在數(shù)據(jù)的傳輸上，由于計(jì)算量小，GPU端的計(jì)算瞬間完成，沒(méi)有辦法將Mali GPU訪(fǎng)存的延遲掩蓋，所以此時(shí)訪(fǎng)存速度較快的CPU端的串行方案反而效率更高。

　　當(dāng)計(jì)算量逐步增加的時(shí)候，Mali GPU的并行能力逐漸體現(xiàn)出其優(yōu)勢(shì)，加速比有顯著提升，當(dāng)計(jì)算量大到一定程度的時(shí)候，加速比趨于穩(wěn)定，因?yàn)檫@時(shí)Mali GPU上有大量的線(xiàn)程切換，不僅隱蔽了訪(fǎng)存的延遲，也使得Mali GPU上的計(jì)算單元滿(mǎn)載，其計(jì)算效率已達(dá)到硬件能夠承受的極限，此時(shí)Mali GPU可以提接近40倍的供驚人的加速比。

　　實(shí)際測(cè)試時(shí)，筆者使用top指令觀(guān)察矩陣進(jìn)程的CPU占用量，串行方案的CPU占用量在98%左右，而基于Mali GPU的并行方案對(duì)CPU幾乎沒(méi)有占用量，說(shuō)明并行方案不僅可以提升計(jì)算效率，還降低了CPU的負(fù)擔(dān)，大大提升了系統(tǒng)實(shí)時(shí)性。實(shí)驗(yàn)的實(shí)際測(cè)試結(jié)果和GPU異構(gòu)運(yùn)算特點(diǎn)吻合。

　　4.結(jié)語(yǔ)

　　本文針對(duì)Mali-T604 GPU論述了基于OpenCL的Linux平臺(tái)上進(jìn)行通用計(jì)算并行優(yōu)化的方法，論述了Mali-T604 GPU的硬件特點(diǎn)，并基于OpenCL設(shè)計(jì)了二維矩陣乘法的并行方案，在Mali-T604上獲得了驚人的加速比，結(jié)果表明Mali GPU對(duì)于龐大輸入量的計(jì)算密集型高度可數(shù)據(jù)并行化通用計(jì)算問(wèn)題有顯著的加速能力，且并行優(yōu)化結(jié)果正確可靠。

c語(yǔ)言相關(guān)文章:c語(yǔ)言教程

存儲(chǔ)器相關(guān)文章:存儲(chǔ)器原理

塵埃粒子計(jì)數(shù)器相關(guān)文章:塵埃粒子計(jì)數(shù)器原理

上一頁(yè) 1 2 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Mali GPU

評(píng)論

相關(guān)推薦

大嘴業(yè)話(huà)：A12真的能改變競(jìng)爭(zhēng)格局么？

視頻 ARM A12 GPU | 2013-06-21

Intel 收購(gòu) NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動(dòng)處理 | 2012-12-26

ARM新聞.

資源下載 ARM 智能卡 SecurCore SC300 IP授權(quán) ARM MALI 圖形技術(shù) 移動(dòng)電話(huà) Neon技術(shù) 視頻編解碼器 DaVinci技術(shù) OMAP35x FPGA | 2009-04-12

ARM.新聞稿

資源下載 Zilog ARM 32位微控制器嵌入式 MCU SoC Cortex-M3 多核處理器消費(fèi)電子 Mali-400 MP NVIDIA Tegra 高度優(yōu)化下一代機(jī)頂盒納米片上系統(tǒng) | 2009-04-12

APU與GPU共進(jìn) AMD搶攻嵌入式應(yīng)用

設(shè)計(jì)方案 APU GPU AMD | 2015-08-19

Nvidia RTX 3050對(duì)決AMD RX 6600 ：哪個(gè)GPU主導(dǎo)200美元市場(chǎng)？

嵌入式系統(tǒng) Nvidia RTX 3050 AMD RX 6600 GPU | 2024-07-02

《E點(diǎn)冷知識(shí)》：引發(fā)AI行業(yè)大地震的CUDA究竟有多強(qiáng)大

視頻英偉達(dá) GPU CUDA AI | 2024-03-26

GPU的形態(tài)已徹底改變，英偉達(dá)GTC大會(huì)發(fā)布的到底是什么

視頻英偉達(dá) GPU Blackwell AI GTC | 2024-03-26

LabVIEW和GPU用于實(shí)時(shí)高性能運(yùn)算系統(tǒng)

資源下載 NI LabVIEW GPU | 2013-03-29

RISC-V為開(kāi)源GPU鋪平道路

風(fēng)的印記 | 2021-08-16

ARM新聞.

資源下載 ARM 智能卡 SecurCore SC300 IP授權(quán) ARM MALI 圖形技術(shù) 移動(dòng)電話(huà) Neon技術(shù) 視頻編解碼器 DaVinci技術(shù) OMAP35x FPGA | 2009-04-12

目標(biāo)完全替代閉源驅(qū)動(dòng)，英偉達(dá)宣布全面轉(zhuǎn)向開(kāi)源 GPU 內(nèi)核模塊

嵌入式系統(tǒng) 閉源驅(qū)動(dòng) 英偉達(dá) 開(kāi)源 GPU 內(nèi)核模塊 Linux | 2024-07-22

中國(guó)科學(xué)院院士：CPU、GPU架構(gòu)上國(guó)人沒(méi)貢獻(xiàn)很遺憾應(yīng)加強(qiáng)創(chuàng)新

嵌入式系統(tǒng) CPU GPU 架構(gòu) | 2024-07-12

非英偉達(dá)聯(lián)盟崛起 ASIC廠(chǎng)吃香

智能計(jì)算英偉達(dá) ASIC GPU AI模型訓(xùn)練 | 2024-07-03

打破NVIDIA壟斷！英國(guó)公司實(shí)現(xiàn)CUDA軟件在A(yíng)MD GPU上無(wú)縫運(yùn)行

智能計(jì)算 NVIDIA CUDA軟件 AMD GPU | 2024-07-22

談GPU的作用、原理及與CPU、DSP的區(qū)別

設(shè)計(jì)方案 GPU CPU DSP 緩存體系 3 | 2015-08-13

醫(yī)療電子平臺(tái)選擇:FPGA、ARM、X86、DSP還是GPU分析

設(shè)計(jì)方案 FPGA ARM DSP GPU X | 2015-08-13

FOPLP導(dǎo)入AI GPU 估2027年量產(chǎn)

EDA/PCB FOPLP AI GPU 臺(tái)積電 | 2024-07-04

這顆芯片有故事，你有酒嗎？

FPGAwuhan | 2016-08-20

CPU與GPU：誰(shuí)將主導(dǎo)下一次計(jì)算革命？

資源下載 CPU GPU 計(jì)算革命融合集成 SOC | 2008-05-26

消息稱(chēng)英偉達(dá)曾向臺(tái)積電詢(xún)問(wèn)建設(shè)廠(chǎng)外 CoWoS 先進(jìn)封裝專(zhuān)線(xiàn)可能，遭拒絕

EDA/PCB 英偉達(dá) GPU 封裝工藝臺(tái)積電 | 2024-07-23

基于GPU的數(shù)字圖像并行處理研究

設(shè)計(jì)方案圖像處理算法并行流處理 GPU | 2015-08-13

GPU和CPU芯片誰(shuí)更復(fù)雜?

睡夢(mèng)中的雄師 | 2023-08-24

gpu_gpu是什么意思

dolphin | 2014-06-12

什么是 DLSS，值得嗎？

智能計(jì)算 DLSS gpu NVIDIA | 2024-07-17

Manpower代招上海 US MNC GPU Physical design technical leader

魔都獵頭招聘 | 2013-07-23

Imagination：我們的移動(dòng)GPU技術(shù)一騎絕塵

設(shè)計(jì)方案 Imagination TI GPU | 2015-08-19

高通新中端芯片驍龍7s Gen 3曝光：采用Adreno 810 GPU，下月發(fā)布

EDA/PCB 高通中端芯片驍龍7s Gen 3 Adreno 810 GPU | 2024-07-23

消息稱(chēng)臺(tái)積電代工英特爾下代 AI HPC 用 GPU 芯片 Falcon Shores

EDA/PCB 臺(tái)積電英特爾 AI HPC GPU 芯片 Falcon Shores | 2024-07-17

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();