<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 揭秘FPGA：為什么比 GPU 的延遲低這么多？

揭秘FPGA：為什么比 GPU 的延遲低這么多？

作者：時(shí)間：2018-06-27 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

收藏

　　最近幾年，FPGA這個(gè)概念越來(lái)越多地出現(xiàn)。

本文引用地址：http://www.ex-cimer.com/article/201806/382354.htm

　　例如，比特幣挖礦，就有使用基于FPGA的礦機(jī)。還有，之前微軟表示，將在數(shù)據(jù)中心里，使用FPGA“代替”CPU，等等。

　　其實(shí)，對(duì)于專業(yè)人士來(lái)說(shuō)，F(xiàn)PGA并不陌生，它一直都被廣泛使用。但是，大部分人還不是太了解它，對(duì)它有很多疑問(wèn)——FPGA到底是什么?為什么要使用它?相比 CPU、GPU、ASIC(專用芯片)，F(xiàn)PGA有什么特點(diǎn)?……

　　今天，帶著這一系列的問(wèn)題，我們一起來(lái)——揭秘FPGA。

　　為什么使用FPGA?

　　眾所周知，通用處理器(CPU)的摩爾定律已入暮年，而機(jī)器學(xué)習(xí)和 Web 服務(wù)的規(guī)模卻在指數(shù)級(jí)增長(zhǎng)。

　　人們使用定制硬件來(lái)加速常見的計(jì)算任務(wù)，然而日新月異的行業(yè)又要求這些定制的硬件可被重新編程來(lái)執(zhí)行新類型的計(jì)算任務(wù)。

　　FPGA 正是一種硬件可重構(gòu)的體系結(jié)構(gòu)。它的英文全稱是Field Programmable Gate Array，中文名是現(xiàn)場(chǎng)可編程門陣列。

　　FPGA常年來(lái)被用作專用芯片(ASIC)的小批量替代品，然而近年來(lái)在微軟、百度等公司的數(shù)據(jù)中心大規(guī)模部署，以同時(shí)提供強(qiáng)大的計(jì)算能力和足夠的靈活性。

　　▲不同體系結(jié)構(gòu)性能和靈活性的比較

　　FPGA 為什么快?「都是同行襯托得好」。

　　CPU、GPU 都屬于馮·諾依曼結(jié)構(gòu)，指令譯碼執(zhí)行、共享內(nèi)存。FPGA 之所以比 CPU 甚至 GPU 能效高，本質(zhì)上是無(wú)指令、無(wú)需共享內(nèi)存的體系結(jié)構(gòu)帶來(lái)的福利。

　　馮氏結(jié)構(gòu)中，由于執(zhí)行單元(如 CPU 核)可能執(zhí)行任意指令，就需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器、分支跳轉(zhuǎn)處理邏輯。由于指令流的控制邏輯復(fù)雜，不可能有太多條獨(dú)立的指令流，因此 GPU 使用 SIMD(單指令流多數(shù)據(jù)流)來(lái)讓多個(gè)執(zhí)行單元以同樣的步調(diào)處理不同的數(shù)據(jù)，CPU 也支持 SIMD 指令。

　　而 FPGA 每個(gè)邏輯單元的功能在重編程(燒寫)時(shí)就已經(jīng)確定，不需要指令。

　　馮氏結(jié)構(gòu)中使用內(nèi)存有兩種作用。一是保存狀態(tài)，二是在執(zhí)行單元間通信。

　　由于內(nèi)存是共享的，就需要做訪問(wèn)仲裁;為了利用訪問(wèn)局部性，每個(gè)執(zhí)行單元有一個(gè)私有的緩存，這就要維持執(zhí)行部件間緩存的一致性。

　　對(duì)于保存狀態(tài)的需求，F(xiàn)PGA 中的寄存器和片上內(nèi)存(BRAM)是屬于各自的控制邏輯的，無(wú)需不必要的仲裁和緩存。

　　對(duì)于通信的需求，F(xiàn)PGA 每個(gè)邏輯單元與周圍邏輯單元的連接在重編程(燒寫)時(shí)就已經(jīng)確定，并不需要通過(guò)共享內(nèi)存來(lái)通信。

　　說(shuō)了這么多三千英尺高度的話，F(xiàn)PGA 實(shí)際的表現(xiàn)如何呢?我們分別來(lái)看計(jì)算密集型任務(wù)和通信密集型任務(wù)。

　　計(jì)算密集型任務(wù)的例子包括矩陣運(yùn)算、圖像處理、機(jī)器學(xué)習(xí)、壓縮、非對(duì)稱加密、Bing 搜索的排序等。這類任務(wù)一般是 CPU 把任務(wù)卸載(offload)給 FPGA 去執(zhí)行。對(duì)這類任務(wù)，目前我們正在用的 Altera(似乎應(yīng)該叫 Intel 了，我還是習(xí)慣叫 Altera……)Stratix V FPGA 的整數(shù)乘法運(yùn)算性能與 20 核的 CPU 基本相當(dāng)，浮點(diǎn)乘法運(yùn)算性能與 8 核的 CPU 基本相當(dāng)，而比 GPU 低一個(gè)數(shù)量級(jí)。我們即將用上的下一代 FPGA，Stratix 10，將配備更多的乘法器和硬件浮點(diǎn)運(yùn)算部件，從而理論上可達(dá)到與現(xiàn)在的頂級(jí) GPU 計(jì)算卡旗鼓相當(dāng)?shù)挠?jì)算能力。

　　▲FPGA 的整數(shù)乘法運(yùn)算能力(估計(jì)值，不使用 DSP，根據(jù)邏輯資源占用量估計(jì))

　　▲FPGA 的浮點(diǎn)乘法運(yùn)算能力(估計(jì)值，float16 用軟核，float 32 用硬核)

　　在數(shù)據(jù)中心，F(xiàn)PGA 相比 GPU 的核心優(yōu)勢(shì)在于延遲。

　　像 Bing 搜索排序這樣的任務(wù)，要盡可能快地返回搜索結(jié)果，就需要盡可能降低每一步的延遲。

　　如果使用 GPU 來(lái)加速，要想充分利用 GPU 的計(jì)算能力，batch size 就不能太小，延遲將高達(dá)毫秒量級(jí)。

　　使用 FPGA 來(lái)加速的話，只需要微秒級(jí)的 PCIe 延遲(我們現(xiàn)在的 FPGA 是作為一塊 PCIe 加速卡)。

　　未來(lái) Intel 推出通過(guò) QPI 連接的 Xeon + FPGA 之后，CPU 和 FPGA 之間的延遲更可以降到 100 納秒以下，跟訪問(wèn)主存沒什么區(qū)別了。

上一頁(yè) 1 2 3 4 5 6 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： FPGA 云計(jì)算 GPU

評(píng)論

相關(guān)推薦

目標(biāo)完全替代閉源驅(qū)動(dòng)，英偉達(dá)宣布全面轉(zhuǎn)向開源 GPU 內(nèi)核模塊

嵌入式系統(tǒng) 閉源驅(qū)動(dòng) 英偉達(dá) 開源 GPU 內(nèi)核模塊 Linux | 2024-07-22

基于FPGA的鎖相環(huán)位同步提取電路

設(shè)計(jì)方案電子電路圖，F(xiàn)PGA 鎖相環(huán) | 2012-07-27

3-DES算法的FPGA高速實(shí)現(xiàn)(Xilinx)

資源下載 Xilinx FPGA 3-DES算法 | 2007-12-13

消息稱英偉達(dá)曾向臺(tái)積電詢問(wèn)建設(shè)廠外 CoWoS 先進(jìn)封裝專線可能，遭拒絕

EDA/PCB 英偉達(dá) GPU 封裝工藝臺(tái)積電 | 2024-07-23

高通新中端芯片驍龍7s Gen 3曝光：采用Adreno 810 GPU，下月發(fā)布

EDA/PCB 高通中端芯片驍龍7s Gen 3 Adreno 810 GPU | 2024-07-23

LatticeECP3設(shè)計(jì)的視頻協(xié)議板電路圖-FPGA配置

設(shè)計(jì)方案 LatticeECP3 設(shè)計(jì) 視頻協(xié)議電路圖 -FPGA | 2011-06-27

高速ADC與內(nèi)置嵌入式串行收發(fā)器的FPGA接口

視頻 Altera FPGA ADC Linear 串行收發(fā)器 | 2009-05-19

Altera公司cyclone系列FPGA-1C6電路圖

設(shè)計(jì)方案 Altera 公司 cyclone 系列 FPGA-1C6 | 2009-07-17

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

Altera的FPGA下載常見問(wèn)題經(jīng)驗(yàn)小結(jié)

資源下載 Altera FPGA 常見問(wèn)題經(jīng)驗(yàn) | 2007-12-13

FPGA如何同DDR3存儲(chǔ)器進(jìn)行接口?

視頻 Altera FPGA DDR3 | 2008-06-18

基于SD7502構(gòu)成的FPGA-ASK電路圖

設(shè)計(jì)方案基于 SD7502 構(gòu)成 FPGA-ASK 電路圖 | 2011-07-13

ALTERA的PCI_IP Core問(wèn)答集

資源下載 Altera FPGA PCI_IP Core | 2007-12-13

用C/C++語(yǔ)言開發(fā)大規(guī)模FPGA [轉(zhuǎn)載于www.fpga.com.cn]

xiaohua | 2002-09-24

LabVIEW FPGA 模塊簡(jiǎn)介

視頻 NI LabVIEW FPGA | 2009-04-01

消息稱英偉達(dá) RTX 4070 及以上顯卡因 GDDR6X 顯存缺貨 8 月供應(yīng)緊張

消費(fèi)電子英偉達(dá) GPU | 2024-07-29

國(guó)家數(shù)據(jù)局：“東數(shù)西算”工程 10 個(gè)國(guó)家數(shù)據(jù)中心集群算力總規(guī)模超 146 萬(wàn)標(biāo)準(zhǔn)機(jī)架

智能計(jì)算東數(shù)西算數(shù)據(jù)中心云計(jì)算 | 2024-07-22

LabVIEW 8.20技術(shù)資料大全簡(jiǎn)介

資源下載 NI LabVIEW 射頻和通信 FPGA | 2007-12-11

萊迪思全新推出邏輯優(yōu)化的通用FPGA拓展其小型FPGA產(chǎn)品組合

嵌入式系統(tǒng) 萊迪思 FPGA 小型FPGA | 2024-07-23

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

視頻協(xié)議板-FPGA配置基于LatticeECP3的設(shè)計(jì)

設(shè)計(jì)方案視頻協(xié)議 -FPGA 配置基于 LatticeECP3 | 2014-05-20

基于FPGA的可編程數(shù)字濾波器系統(tǒng)

資源下載 Max FPGA 可編程數(shù)字濾波器 | 2007-12-14

打破NVIDIA壟斷！英國(guó)公司實(shí)現(xiàn)CUDA軟件在AMD GPU上無(wú)縫運(yùn)行

智能計(jì)算 NVIDIA CUDA軟件 AMD GPU | 2024-07-22

Altera: 采用全系列40-nm收發(fā)器FPGA和ASIC實(shí)現(xiàn)創(chuàng)新

視頻 Altera FPGA ASIC | 2009-07-13

實(shí)時(shí)的噪聲源定位系統(tǒng)

視頻 NI LabVIEW FPGA | 2009-03-25

Meta訓(xùn)練Llama 3遭遇頻繁故障

智能計(jì)算 Meta Llama 3 英偉達(dá) H100 顯卡 GPU | 2024-07-29

s3c2410+fpga 做視頻無(wú)線傳輸

herbertwj | 2004-08-15

利用強(qiáng)大的軟件設(shè)計(jì)工具為FPGA開發(fā)者賦能

嵌入式系統(tǒng) 軟件設(shè)計(jì)工具 FPGA 萊迪思 | 2024-07-17

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

help, 44b0+fpga拖死cpu

sandman555 | 2005-02-05

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();