<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 設(shè)計(jì)應(yīng)用 > Habana Gaudi加速器首次運(yùn)用于Amazon EC2云

Habana Gaudi加速器首次運(yùn)用于Amazon EC2云

作者：時(shí)間：2021-11-19 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

本文引用地址：http://www.ex-cimer.com/article/202111/429782.htm

“性價(jià)比提升高達(dá)40%”以及背后的數(shù)字

近日AWS宣布將推出采用Habana^? Gaudi^? AI加速器的Amazon EC2 DL1.24xlarge實(shí)例。這是AWS首個(gè)不基于GPU的AI訓(xùn)練實(shí)例。

AWS首席執(zhí)行官Andy Jassy在2020 re:Invent和AWS最近宣布實(shí)例應(yīng)用的活動(dòng)上，介紹了創(chuàng)建這一新型訓(xùn)練實(shí)例類的初衷：“為終端客戶提供比目前這一代基于GPU的實(shí)例性價(jià)比提升40%的新實(shí)例?！?/p>

以下詳述Gaudi在常用計(jì)算機(jī)視覺和自然語言處理工作量方面具備的成本效益。

AWS針對EC2 DL1實(shí)例以及基于GPU的p4d、p3dn和p3實(shí)例發(fā)布了DL1按需每小時(shí)定價(jià)，終端用戶可以通過一種簡單的方法來自行評估性價(jià)比。采用Nvidia在NGC上以及Habana在軟件Vault中提供的最新TensorFlow Docker容器，并分別在不同實(shí)例上運(yùn)行這些容器，可比較訓(xùn)練吞吐量和每小時(shí)定價(jià)。

不同的模型提供的結(jié)果不同，而且Gaudi上目前也并非支持所有模型。在本次評估中，我們考慮的是兩種常用模型：ResNet-50和BERT-Large。

以下表格例舉在各種實(shí)例類型上訓(xùn)練TensorFlow ResNet-50的訓(xùn)練吞吐量、每小時(shí)定價(jià)和計(jì)算出的吞吐量/美元（即百萬張圖像/美元）。以p4d.24xlarge實(shí)例上設(shè)置的性價(jià)比為基準(zhǔn)，我們可計(jì)算出對于此工作量，其他每種實(shí)例類型的相對值，以及DL1為目前使用基于GPU實(shí)例的EC2終端客戶所節(jié)省的相應(yīng)成本百分比。

(*) Habana于6月28日在基于GPU的AWS EC2實(shí)例上使用Nvidia深度學(xué)習(xí)AMI (Ubuntu 18.04) + Docker 21.06-tf1-py3所測得的結(jié)果，請?jiān)L問：https://ngc.nvidia.com/catalog/containers/nvidia.tensorflow
模型：https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/Classification/ConvNets/resnet50v1.5
您測得的性能結(jié)果可能會(huì)有所不同。
(**) Habana在AWS EC2 DL1.24xlarge實(shí)例上使用在Habana的Vault中集成了SynapseAI 1.0.1-81 Tensorflow 2.5.1容器的DLAMI所測得的結(jié)果，模型：https://github.com/HabanaAI/Model-References/tree/master/TensorFlow/computer_vision/Resnets/resnet_keras?；谠谝韵戮W(wǎng)址發(fā)布的定價(jià)：https://aws.amazon.com/ec2/pricing/on-demand
您測得的性能結(jié)果可能會(huì)有所不同。

根據(jù)Habana對各種EC2實(shí)例的測試結(jié)果以及Amazon發(fā)布的定價(jià)，我們發(fā)現(xiàn)，相比p4d實(shí)例，DL1能節(jié)省44%的ResNet-50訓(xùn)練成本。對于p3dn最終用戶，ResNet-50的訓(xùn)練成本可節(jié)省69%。

Habana認(rèn)識(shí)到MLPerf性能基準(zhǔn)測試的重要性，用戶可以查找我們在6月份發(fā)布的針對8個(gè)基于Gaudi的系統(tǒng)進(jìn)行基準(zhǔn)測試的1.0提交結(jié)果 - 與DL1.24xlarge非常類似。在此次MLPerf提交結(jié)果中，Habana并沒有應(yīng)用數(shù)據(jù)封裝或?qū)尤诤系阮~外的軟件優(yōu)化功能來提高性能。我們的目標(biāo)是提交的結(jié)果與參考代碼最接近，并能代表客戶使用目前的SynapseAI^? TensorFlow軟件可以獲得的即時(shí)可用性能。因此，客戶能輕松對模型進(jìn)行小幅調(diào)整（更改數(shù)據(jù)、切換層等），同時(shí)保持性能相差無幾。在TensorFlow上測得的MLPerf TTT結(jié)果與我們早期客戶現(xiàn)在看到的訓(xùn)練吞吐量相似。

雖然每個(gè)實(shí)例的絕對吞吐量有所下降，但基于Gaudi的EC2 DL1定價(jià)遠(yuǎn)低于p4d。這是怎么做到的呢？盡管基于16nm和HBM2的Gaudi封裝的晶體管數(shù)量不如基于7nm和HBM2e的A100 GPU那么多，但Gaudi的架構(gòu)以效率為宗旨進(jìn)行了全新設(shè)計(jì)，相較于GPU架構(gòu)，Gaudi架構(gòu)的資源利用率更高，包含的系統(tǒng)組件更少。結(jié)果，系統(tǒng)成本下降，從而為最終用戶提供更低價(jià)格。

在語言模型中，Gaudi與GPU的性價(jià)比提升幅度不如視覺模型，相比p4d，成本節(jié)省了10%，相比p3dn，成本節(jié)省了54%。BERT-Large是目前常用的一種模型，我們使用第1階段中的吞吐量來代表用戶可以自行測量的性能。下面是在實(shí)際EC2實(shí)例上使用Nvidia的NGC中以及Habana的Vault和GitHub中發(fā)布的最新即時(shí)可用容器和模型超參數(shù)針對TensorFlow所測得的結(jié)果。

(*) Habana于6月28日在基于GPU的AWS EC2實(shí)例上使用Nvidia深度學(xué)習(xí)AMI (Ubuntu 18.04) + Docker 21.06-tf1-py3所測得的結(jié)果，請?jiān)L問：https://ngc.nvidia.com/catalog/containers/nvidia.tensorflow/tags
模型：https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT
您測得的性能結(jié)果可能會(huì)有所不同。
(**) Habana在AWS EC2 DL1.24xlarge實(shí)例上使用在Habana的Vault中集成了SynapseAI 1.0.1-81 Tensorflow 2.5.1容器的DLAMI所測得的結(jié)果，模型：https://github.com/HabanaAI/Model-References/tree/master/TensorFlow/nlp/bert
發(fā)布的定價(jià)：https://aws.amazon.com/ec2/pricing/on-demand
您測得的性能結(jié)果可能會(huì)有所不同。

Habana提交的MLPerf BERT結(jié)果代表了客戶通過目前的SynapseAI^? TensorFlow軟件可獲得的即時(shí)可用性能。因此，客戶可能輕松對模型進(jìn)行小幅調(diào)整，同時(shí)保持性能相差無幾。

NVIDIA在MLPerf BERT提交結(jié)果中采用了一系列優(yōu)化功能，這些功能在其已發(fā)布的軟件中未提供，也很難用于一般用途。例如，他們將整個(gè)multi-head attention block融合到單一內(nèi)核中。如果客戶希望對長序列使用不同的attention，他們將不得不更改內(nèi)核，否則會(huì)導(dǎo)致性能下降。NVIDIA還使用了在其標(biāo)準(zhǔn)軟件分發(fā)中未提供的自定義數(shù)據(jù)加載技術(shù)。

將A100與DL1在NGC提供的最新Tensorflow AMI（基于21.06-tf1-py3 NGC Docker容器）上的BERT性能進(jìn)行對比，從中可以看出就算是對于BERT也能節(jié)省成本。Habana計(jì)劃下個(gè)月向MLPerf提交對BERT實(shí)施軟件優(yōu)化后的結(jié)果，其中將證明相比5月份的提交結(jié)果，性能有顯著提高。

Gaudi的價(jià)值主張立足于性價(jià)比和易用性。Habana提供的架構(gòu)選項(xiàng)旨在提升效率，不會(huì)讓終端用戶遷移到Gaudi的工作產(chǎn)生困難。

如果您有興趣了解提前獲得Gaudi訪問權(quán)限的開發(fā)人員對Gaudi和DL1的看法，請參閱Habana專題介紹Amazon EC2 DL1實(shí)例的產(chǎn)品頁面，其中引述了Seagate、Riskfuel、Leidos 等公司相關(guān)人員的想法。

“我們預(yù)計(jì)，搭載Habana Gaudi加速器的Amazon EC2 DL1實(shí)例所具備的顯著性價(jià)比優(yōu)勢，在未來很可能會(huì)成為AWS計(jì)算集群的有力補(bǔ)充，”Seagate高級(jí)分析部運(yùn)營與技術(shù)高級(jí)分析工程總監(jiān)Darrell Louder表示：“隨著Habana Labs的不斷發(fā)展，支持的運(yùn)營商覆蓋范圍越來越大，有潛力擴(kuò)展來支持更多的企業(yè)用例，從而進(jìn)一步節(jié)省成本?！?/p>

“AI和深度學(xué)習(xí)是我們機(jī)器視覺能力的核心，有助于客戶在我們服務(wù)的各個(gè)行業(yè)中做出更好的決策。為了提高準(zhǔn)確性，數(shù)據(jù)集變得越來越大，越來越復(fù)雜，因此需要更大、更復(fù)雜的模型。這就推動(dòng)了提高計(jì)算性價(jià)比的需求，”Fractal集團(tuán)首席執(zhí)行官Srikanth Velamakanni說：“與基于GPU的EC2實(shí)例相比，新的Amazon EC2 DL1實(shí)例承諾能顯著降低訓(xùn)練成本。我們預(yù)計(jì)，對于廣泛的客戶來說，這一優(yōu)點(diǎn)將使云端的AI模型訓(xùn)練無論在成本競爭力還是可訪問性方面都較以往有大幅提升。”

Leidos衛(wèi)生與公共服務(wù)部首席技術(shù)官Chetan Paul表示：“目前我們支持推動(dòng)醫(yī)療保健進(jìn)步的眾多技術(shù)中，其中一項(xiàng)技術(shù)是使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)基于醫(yī)學(xué)成像數(shù)據(jù)對疾病進(jìn)行診斷。我們的海量數(shù)據(jù)集需要及時(shí)、高效的訓(xùn)練，為苦心鉆研一些最亟待解決的醫(yī)學(xué)謎題的研究人員提供幫助。由于Leidos及其客戶需要對深度學(xué)習(xí)模型進(jìn)行快速簡單而又經(jīng)濟(jì)高效的訓(xùn)練，我們很高興與英特爾和AWS攜手，共同踏上基于Habana Gaudi AI處理器的Amazon EC2 DL1實(shí)例的發(fā)展之旅。使用DL1實(shí)例后，我們預(yù)計(jì)模型訓(xùn)練速度和效率都會(huì)有所提升，進(jìn)而降低研發(fā)風(fēng)險(xiǎn)和成本。”

Riskfuel首席執(zhí)行官Ryan Ferguson表示：“有兩個(gè)因素吸引我們采用基于Habana Gaudi AI加速器的Amazon EC2 DL1實(shí)例。一是我們希望確保銀行和保險(xiǎn)業(yè)客戶可以運(yùn)行利用了最新硬件的Riskfuel模型。幸運(yùn)的是，我們發(fā)現(xiàn)將模型遷移到DL1實(shí)例非常簡單 — 實(shí)際上，只需更改幾行代碼即可。二是訓(xùn)練成本在我們的支出中占主要部分，高達(dá)40%的性價(jià)比提升承諾對我們的利潤有著潛在的實(shí)質(zhì)性好處?！?/p>

如今，我們的參考模型存儲(chǔ)庫中有20種高需求模型，我們已經(jīng)制定了路線圖，計(jì)劃對這些模型以及軟件功能進(jìn)行擴(kuò)展。您也可以在Habana的GitHub上查看對所有人開放的該路線圖。

開發(fā)者之旅始于SynapseAI^? SDK。SDK的詳細(xì)信息在此不再贅述。SynapseAI^?軟件產(chǎn)品組合旨在促進(jìn)基于Habana Gaudi加速器的高性能深度學(xué)習(xí)訓(xùn)練。它包括Habana圖形編譯器和運(yùn)行時(shí)、TPC內(nèi)核庫、固件和驅(qū)動(dòng)程序以及開發(fā)人員工具，如用于自定義內(nèi)核開發(fā)的Habana分析器和TPC SDK。

SynapseAI與TensorFlow和PyTorch框架相集成。與Gaudi PyTorch集成相比，TensorFlow集成更加成熟，因?yàn)楹笳叩拈_發(fā)時(shí)間比前者晚了半年。

因此，相較于Habana在TensorFlow模型的表現(xiàn)，Habana 在PyTorch模型上的性能略低（吞吐量和訓(xùn)練時(shí)間）。我們在SynapseAI用戶指南中以及GitHub上的參考模型中記錄了已知限制。此外，我們還在Habana開發(fā)人員網(wǎng)站上發(fā)布了參考模型的性能結(jié)果。Habana團(tuán)隊(duì)致力于在后續(xù)發(fā)行版中不斷提升易用性和性能。

我們十分清楚，在進(jìn)一步開發(fā)軟件和模型覆蓋范圍方面還有很多工作要做，我們將依靠數(shù)據(jù)研究人員和開發(fā)人員來探索Gaudi，并向我們提供相應(yīng)的反饋和請求。我們期待通過開發(fā)人員站點(diǎn)和GitHub，對于云端（通過 Amazon EC2 DL1 實(shí)例）和本地使用Gaudi的問題與DL社區(qū)進(jìn)行互動(dòng)。

下一步，我們在軟件方面還有很多工作要做，與此同時(shí) — Habana 正在開發(fā)下一代Gaudi2 AI處理器，新一代處理器將Gaudi架構(gòu)從16nm提升到7nm，進(jìn)一步提高了性價(jià)比，造福于終端客戶，同時(shí)保持相同的架構(gòu)，并充分利用我們利用Gaudi構(gòu)建的相同SynapseAI軟件和生態(tài)系統(tǒng)。

目前，Habana團(tuán)隊(duì)對通過基于Gaudi的Amazon EC2 DL1實(shí)例，為AI提供AWS云中最具成本效益的訓(xùn)練感到滿意。我們對AI傾注的關(guān)注和努力甚于以往任何時(shí)候，我們持續(xù)全情投入AI發(fā)展。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：

評論

相關(guān)推薦

幾種VI轉(zhuǎn)換和恒流源電路圖的比較

設(shè)計(jì)方案幾種轉(zhuǎn)換恒流電路圖比較 | 2009-07-22

適配于氮化鎵開關(guān)器件的高頻小體積照明電源方案

電源與新能源氮化鎵開關(guān)器件照明電源 | 2023-12-19

電子科技大學(xué)--嵌入式系統(tǒng)應(yīng)用開發(fā)技術(shù)03

視頻電子科技大學(xué) 嵌入式實(shí)時(shí)系統(tǒng) | 2009-04-28

電子科技大學(xué)--嵌入式系統(tǒng)應(yīng)用開發(fā)技術(shù)01

視頻電子科技大學(xué) 嵌入式 | 2009-04-28

[原創(chuàng)]做ARM的過來看看——禾元電子

電子陽光 | 2004-12-30

我的一段makefile理解文檔

meteorsong | 2004-12-30

ACM6252 單相正弦波/方波（BLDC）直流無刷電機(jī)驅(qū)動(dòng)IC解決方案

工控自動(dòng)化單相正弦波/方波 BLDC 直流無刷電機(jī)驅(qū)動(dòng) | 2023-12-19

我的BSP理解文檔，貼出來和大家共享。希望大家多多指正！（2）

meteorsong | 2004-12-30

Gartner發(fā)布2023年中國安全技術(shù)成熟度曲線

安防與國防 Gartner 安全技術(shù) 成熟度曲線 | 2023-12-19

大聯(lián)大友尚集團(tuán)推出基于ST產(chǎn)品的6KW高壓DC/DC轉(zhuǎn)換器方案

電源與新能源大聯(lián)大友尚 6KW 高壓DC/DC轉(zhuǎn)換器 | 2023-12-19

經(jīng)典的電源電路(7805擴(kuò)流)

設(shè)計(jì)方案經(jīng)典電源擴(kuò)流 | 2009-07-22

ADI PH計(jì)應(yīng)用方案實(shí)現(xiàn)精準(zhǔn)高效的水質(zhì)測量

測試測量 ADI PH計(jì) 水質(zhì)測量 | 2023-12-19

快速模擬開關(guān)電路

設(shè)計(jì)方案快速模擬開關(guān) | 2009-07-22

我的BSP理解文檔，貼出來和大家共享。希望大家多多指正！（1）

meteorsong | 2004-12-30

PIC16F917_916_914_913單片機(jī)

資源下載 Microchip 閃存單片機(jī) PIC16F917 PIC16F916 PIC16F914 | 2007-03-20

PIC18F6390_PIC18F6490_PIC18F8390_PIC18F8490單片機(jī)

資源下載 Microchip 閃存單片機(jī) PIC18F6390 PIC18F6490 PIC18F8390 PIC18F8490 | 2007-03-20

立訊精密收購Qorvo在中國半導(dǎo)體封測工廠

EDA/PCB 立訊精密 Qorvo 半導(dǎo)體封測 | 2023-12-19

電子科技大學(xué)--嵌入式系統(tǒng)應(yīng)用開發(fā)技術(shù)02

視頻電子科技大學(xué) 嵌入式實(shí)時(shí)系統(tǒng) | 2009-04-28

NMOS和PMOS詳解

元件/連接器 MOSFET NMOS PMOS | 2023-12-19

PIC18F87J10 系列單片機(jī)

資源下載 Microchip 閃存單片機(jī) PIC18F87J10 | 2007-03-20

電子科技大學(xué)--嵌入式系統(tǒng)應(yīng)用開發(fā)技術(shù)04

視頻電子科技大學(xué) 嵌入式 | 2009-04-28

[原創(chuàng)]ARM仿真器全國最低價(jià)

電子陽光 | 2004-12-30

PIC18FXX2 增強(qiáng)型閃存單片機(jī)

資源下載 Microchip 閃存單片機(jī) PIC18FXX2 | 2007-03-20

Achronix提供由FPGA賦能的智能網(wǎng)卡（SmartNIC）解決方案來打破智能網(wǎng)絡(luò)性能極限

嵌入式系統(tǒng) Achronix FPGA 智能網(wǎng)卡 SmartNIC 智能網(wǎng)絡(luò) | 2023-12-19

無線模塊的使用電路圖

設(shè)計(jì)方案無線模塊使用電路圖 | 2009-07-22

國外電源原理圖

設(shè)計(jì)方案國外電源原理 | 2009-07-22

研華SMARC 模塊 SOM-2533，搭載 Intel Core i3 和Atom x7000 系列，提升邊緣性能

工控自動(dòng)化研華研華嵌入式模塊化電腦 COM SMARC 邊緣計(jì)算醫(yī)療工業(yè)控制運(yùn)輸自動(dòng)化 | 2023-12-19

清華大學(xué)知名教授解讀點(diǎn)石成金的微電子產(chǎn)業(yè)(下)

視頻清華微電子 | 2009-04-24

汽車芯片應(yīng)用將迎來爆點(diǎn)，6類產(chǎn)品開始沖刺

汽車電子汽車芯片 | 2023-12-19

PIC18F2331_PIC18F2431_PIC18F4331_PIC18F4431 單片機(jī)

資源下載 Microchip 閃存單片機(jī) PIC18F2331 PIC18F2431 PIC18F4331 PIC18F4431 | 2007-03-20

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();