<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 手機(jī)與無線通信 > 設(shè)計應(yīng)用 > 基于GPU的AES算法實現(xiàn)

基于GPU的AES算法實現(xiàn)

作者：時間：2011-06-14 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

2 CUDA編程簡介
2．1 CUDA簡介
CUDA全稱是Compute Unified Device Architecture，是NVIDIA公司在2006年11月推出的一種在GPU上進(jìn)行通用計算的架構(gòu)。它具有全新的并行編程模型，不需要像傳統(tǒng)GPU開發(fā)方式那樣進(jìn)行圖形API的映射就可以使用GPU的資源進(jìn)行并行計算。CUDA是一個包含軟件和硬件的完整的并行計算架構(gòu)，它的硬件設(shè)備是具有多個流處理器核的圖形并且支持CUDA的GPU，軟件部分包括編譯工具、驅(qū)動程序、runtime庫和一些常用的數(shù)學(xué)運(yùn)算庫。
2．2 CUDA中GPU結(jié)構(gòu)
在CUDA架構(gòu)下，開發(fā)者可以通過創(chuàng)建和管理大量的線程來使用GPU的硬件資源進(jìn)行并行計算。在CUDA中線程的創(chuàng)建和切換是由硬件來實現(xiàn)的，不會占用軟件的執(zhí)行時間。在CUDA的rtmtime庫中提供了訪問GPU硬件資源的接口，用戶通過調(diào)用runtime庫中的函數(shù)就可以直接訪問GPU的硬件資源。CUDA的編程語言是一種C語言的擴(kuò)展，提供了通用的DRAM尋址方式，從而提供了很大的編程靈活性。操作系統(tǒng)可以管理多個并發(fā)運(yùn)行的CUDA程序和圖形應(yīng)用程序來訪問GPU。

3 CUDA編程模型
由于GPU的特點，它很適合做高密度數(shù)據(jù)的并行運(yùn)算，但是對于不能并行的具有復(fù)雜執(zhí)行路徑的程序執(zhí)行效率就會很低。因此當(dāng)通過CUDA在GPU上進(jìn)行通用計算的開發(fā)時，是把在應(yīng)用程序中高密度數(shù)據(jù)可以進(jìn)行并行計算的部分做成一個稱作kernel的函數(shù)在GPU設(shè)備上執(zhí)行，而應(yīng)用程序中的其他串行執(zhí)行的部分由主機(jī)上的CPU來完成。一個在GPU上執(zhí)行的kernel可以包含極高數(shù)量并發(fā)執(zhí)行的線程，在CUDA架構(gòu)中是通過設(shè)計kernel中的線程來完成通用計算的GPU實現(xiàn)的。主機(jī)和GPU設(shè)備之間的交互是通過在主機(jī)和設(shè)備各自的DRAM之間傳輸數(shù)據(jù)來實現(xiàn)的，而這種數(shù)據(jù)傳輸是由設(shè)備的DMA引擎完成的，因此數(shù)據(jù)的傳輸并不會造成太多主機(jī)CPU開銷。
一個kernel中的線程是被分成具有相同大小的線程塊的，線程塊可以是一維、二維或者三維的，因此對應(yīng)的線程就可以具有一維、二維或者三維的索引。在一個線程塊中每個線程都具有一個一維的ID，這個ID和索引具有以下kernel關(guān)系：對于一維的線程塊，線程就等于其索引；對于大小為ID(Dx，Dy)的二維線程塊，索引為(x，y)的線程ID為(x+v Dx)；對于大小為(Dx，Dy，Dz)的三維線程塊，索引為(x，y，z)的線程ID為(x+y Dx+z Dx Dy)。
同一個線程塊中的線程之間可以通過同步操作來協(xié)同內(nèi)存訪問。當(dāng)通過調(diào)用內(nèi)置函數(shù)_syncthreads()在kernel中建立同步點時，一個線程塊中的執(zhí)行到同步點的線程會被掛起直到這個線程塊中所有的線程都到達(dá)這個同步點。
為了線程之間能夠有效地協(xié)同工作，同步操作被設(shè)計成只需要一條指令就可以實現(xiàn)，并且同一個線程塊中的線程需要在同一個多核處理器上執(zhí)行。因此每個線程塊中全部線程的數(shù)量就受到一個處理器核上的存儲資源的限制。在當(dāng)前的GPU上，一個線程塊可以包含最多512個線程。
雖然一個線程塊可以包含的線程數(shù)量有限制，但是一個kernel可以包括多個大小相同的線程塊，kernel中的線程數(shù)就等于每個塊中線程的數(shù)量乘以線程塊的數(shù)量。線程塊之間是獨立的，它們可以并行地執(zhí)行，也可以串行地順序執(zhí)行。這就允許線程塊在多個處理器核之間按照任何順序調(diào)度，從而使得開發(fā)具有靈活性和可擴(kuò)展性。而且這樣線程塊的數(shù)量就可以根據(jù)待處理數(shù)據(jù)的大小決定，而不是由系統(tǒng)中多核處理器的個數(shù)決定，也就是說線程塊的數(shù)量可以大于多核處理器的數(shù)量。因此kernel中可以具有大量的線程塊，從而具有極高的線程數(shù)。但是由于線程塊之間執(zhí)行的不確定性，不同線程塊的線程之間不能進(jìn)行同步操作。
3．1 算法設(shè)計
首先把待處理的大數(shù)據(jù)塊劃分為尺寸相同的多個小數(shù)據(jù)塊，然后使用標(biāo)準(zhǔn)的AES算法對各個小數(shù)據(jù)塊進(jìn)行并行的運(yùn)算，運(yùn)算完成后把每個小數(shù)據(jù)塊的值按順序保存在一起，最后再把所有的輸出結(jié)果使用標(biāo)準(zhǔn)的AES算法來處理得到最后的結(jié)果，這樣就可以使用大量的線程來并行地對每個小數(shù)據(jù)塊進(jìn)行運(yùn)算。但是當(dāng)數(shù)據(jù)分塊足夠多線程數(shù)很大時，就需要將線程劃分為多個線程塊。由于不同線程塊中的線程之間不能進(jìn)行同步，所以設(shè)計了兩個kernel，第一個kernel的任務(wù)是使用大量并發(fā)執(zhí)行的線程對原始數(shù)據(jù)分成的多個小塊數(shù)據(jù)進(jìn)行運(yùn)算，并把結(jié)果按照順序保存在設(shè)備DKAM中。等第一個kernel執(zhí)行完成后，由主機(jī)啟動第二個kernel，這個kernel會根據(jù)主機(jī)提供的地址和數(shù)據(jù)大小對第一個kernel的計算得到的中間值進(jìn)行運(yùn)算，這一步只需用一個線程來執(zhí)行，由于中間值的大小遠(yuǎn)遠(yuǎn)小于原始數(shù)據(jù)，所以這一步的計算開銷是很小的。
3．2 算法優(yōu)化
GPU計算雖然高效，但是也有瓶頸。CPU代碼在調(diào)用GPU的kernel函數(shù)時，首先要將內(nèi)存中的數(shù)據(jù)塊讀到流中，處理完后，又要將流寫回內(nèi)存。

上一頁 1 2 3 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 實現(xiàn) 算法 AES GPU 基于

評論

相關(guān)推薦

GPU的形態(tài)已徹底改變，英偉達(dá)GTC大會發(fā)布的到底是什么

視頻英偉達(dá) GPU Blackwell AI GTC | 2024-03-26

《E點冷知識》：引發(fā)AI行業(yè)大地震的CUDA究竟有多強(qiáng)大

視頻英偉達(dá) GPU CUDA AI | 2024-03-26

[轉(zhuǎn)帖]us/os就緒表的維護(hù)算法分析

amine | 2002-05-17

基于MSP430F133的電子鎮(zhèn)流器綜合測試儀

設(shè)計方案基于 MSP430F133 電子鎮(zhèn)流器綜合測試儀 | 2009-07-06

Intel 收購 NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動處理 | 2012-12-26

CRC算法原理及C語言實現(xiàn)

資源下載 CRC 算法 C語言 | 2007-02-16

FOPLP導(dǎo)入AI GPU 估2027年量產(chǎn)

EDA/PCB FOPLP AI GPU 臺積電 | 2024-07-04

高通新中端芯片驍龍7s Gen 3曝光：采用Adreno 810 GPU，下月發(fā)布

EDA/PCB 高通中端芯片驍龍7s Gen 3 Adreno 810 GPU | 2024-07-23

基于D類功放專用驅(qū)動芯片驅(qū)動的高保真純正弦波逆變器1

設(shè)計方案基于功放專用驅(qū)動芯片高保真正弦波逆變器 | 2009-07-06

PID算法

資源下載 PID 算法誤差 | 2007-02-16

什么是 DLSS，值得嗎？

智能計算 DLSS gpu NVIDIA | 2024-07-17

簡單實用的單片機(jī)CRC 快速算法

資源下載 CRC 算法單片機(jī) | 2007-02-16

中國科學(xué)院院士：CPU、GPU架構(gòu)上國人沒貢獻(xiàn)很遺憾應(yīng)加強(qiáng)創(chuàng)新

嵌入式系統(tǒng) CPU GPU 架構(gòu) | 2024-07-12

模擬電路PWM的實現(xiàn)

設(shè)計方案模擬電路實現(xiàn) | 2009-07-06

vxworks下bsp制作教程(老站轉(zhuǎn))

amine | 2002-05-28

仿真器概念及實現(xiàn)技術(shù)

jackwang | 2002-05-14

SHIPT算法擠壓了外包工人如何對雇主進(jìn)行審計

智能計算 SHIPT 算法算法管理 | 2024-07-04

打破NVIDIA壟斷！英國公司實現(xiàn)CUDA軟件在AMD GPU上無縫運(yùn)行

智能計算 NVIDIA CUDA軟件 AMD GPU | 2024-07-22

嵌入式開發(fā)者都該了解的十大算法

嵌入式開發(fā)者算法 | 2024-07-16

數(shù)字PID控制算法之一

資源下載 PID PID控制算法 | 2007-12-28

消息稱英偉達(dá)曾向臺積電詢問建設(shè)廠外 CoWoS 先進(jìn)封裝專線可能，遭拒絕

EDA/PCB 英偉達(dá) GPU 封裝工藝臺積電 | 2024-07-23

大嘴業(yè)話：A12真的能改變競爭格局么？

視頻 ARM A12 GPU | 2013-06-21

基于RC電路的一次性濾波器

設(shè)計方案基于電路一次性濾波器 | 2009-07-06

目標(biāo)完全替代閉源驅(qū)動，英偉達(dá)宣布全面轉(zhuǎn)向開源 GPU 內(nèi)核模塊

嵌入式系統(tǒng) 閉源驅(qū)動英偉達(dá) 開源 GPU 內(nèi)核模塊 Linux | 2024-07-22

利用PIC12C508單片機(jī)來實現(xiàn)加密狗技術(shù)[轉(zhuǎn)帖]

hpnet | 2002-05-19

消息稱臺積電代工英特爾下代 AI HPC 用 GPU 芯片 Falcon Shores

EDA/PCB 臺積電英特爾 AI HPC GPU 芯片 Falcon Shores | 2024-07-17

基于VxWorks的多DSP系統(tǒng)的多任務(wù)程序設(shè)計(老站轉(zhuǎn))

amine | 2002-05-28

基于運(yùn)放的差動放大器

設(shè)計方案基于運(yùn)放差動放大器 | 2009-07-06

加密算法之MD5算法

資源下載加密算法加密算法 MD5算法 | 2007-02-16

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();