<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 業(yè)界動(dòng)態(tài) > Google TPU芯片效能超越CPU與GPU？

Google TPU芯片效能超越CPU與GPU？

作者：時(shí)間：2017-04-20 來源：eettaiwan

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　網(wǎng)路巨擘Google日前指出，該公司的Tensor處理器(TPU)在機(jī)器學(xué)習(xí)的測試中，以數(shù)量級的效能優(yōu)勢超越英特爾(Intel)的Xeon處理器和Nvidia的繪圖處理器(GPU)。在一份長達(dá)17頁的報(bào)告中，Google深入剖析其TPU和測試基準(zhǔn)顯示比目前的商用芯片更快至少15倍的速度，并提供更高30倍的效能功耗比(P/W)。

本文引用地址：http://www.ex-cimer.com/article/201704/358227.htm

　　去年五月，Google宣布其ASIC設(shè)計(jì)是為了加快各種應(yīng)用在其納米中心服務(wù)器的推論作業(yè)?，F(xiàn)在，該公司將在今年6月的一場電腦架構(gòu)大會中，透過一篇論文首度公開對于此芯片及其效能的深入研究。

　　這份報(bào)告提供了有關(guān)加速器與Google多元神經(jīng)網(wǎng)路工作負(fù)載的深度觀察，并建議工程師在此快速成長的領(lǐng)域中投注更多的學(xué)習(xí)。

　　曾帶領(lǐng)超過70位工程師團(tuán)隊(duì)設(shè)計(jì)TPU 的知名硬件工程師Norman P. Jouppi說：“我們希望聘請一些優(yōu)秀的工程師，并讓他們了解我們正在進(jìn)行高品質(zhì)的工作，同時(shí)也讓云端客戶知道我們的實(shí)力。”

　　該計(jì)劃的其中一位負(fù)責(zé)人員是美國加州柏克萊大學(xué)(U.C. Berkeley)退休教授David Patterson，他同時(shí)也是一位資深的處理器架構(gòu)師，在日前一場矽谷的工程師聚會中介紹了這份報(bào)告。Google還在部落格中發(fā)布Jouppi所撰寫關(guān)于此芯片的文章。

　　如今Google的納米中心仍采用此芯片。不過，關(guān)于該芯片使用的范圍與未來計(jì)劃加強(qiáng)的部份，Jouppi并不愿透露任何細(xì)節(jié)。

　　這款40W功率的TPU是一款采用28納米制程、70MHz時(shí)脈運(yùn)算的芯片，專為加速Google TensorFlow 演算法而設(shè)計(jì)。其主要的邏輯單元包含65,536個(gè)8位元的乘積累加運(yùn)算單元和24MB快取存儲器，并提供每秒92兆次運(yùn)算速度。

　　在2015年采用Google機(jī)器學(xué)習(xí)芯片而進(jìn)行的測試中，相較于英特爾(Intel)的Haswell服務(wù)器處理器(CPU)和Nvidia的K80繪圖處理器(GPU)，采用TPU時(shí)的運(yùn)作速度提高了15到30倍，效能提高了30到80倍。該報(bào)告中指出：“TPU的相對增量效能功耗比為41到83——這就是我們?yōu)槭裁纯椭苹疉SIC的原因，它讓TPU比GPU高出25到29倍的的效能功耗比。”

　　2015年的測試使用了英特爾 22納米制程的18核心Haswell E5-2699 v3 CPU，其時(shí)脈頻率(速度)為2.3GHz，熱設(shè)計(jì)功耗(TDP)為145W。Nvidia K80 GPU功耗為150W，時(shí)脈頻率最高到875MHz。

　　TPU內(nèi)部揭密

　　在該報(bào)告中提到，TPU所達(dá)到的數(shù)量級效能優(yōu)勢，很少有別的廠商能做到，也可能讓TPU成為特定領(lǐng)域架構(gòu)的原型。預(yù)計(jì)接下來將會有許多追隨者，而使得標(biāo)準(zhǔn)更為提高。

　　事實(shí)上，TPU的目標(biāo)不在于提高納米處理量，而是專注于達(dá)到7毫秒(ms)的延遲，使專用加速器發(fā)揮功效，因此，它舍棄了高吞吐量的多工通用處理器所需的許多元件，而用于執(zhí)行其他許多任務(wù)。

　　但此ASIC芯片在能耗比的表現(xiàn)上不及英特爾和Nvidia的芯片。在10%的負(fù)載狀況下，TPU的最大功率消耗為88%。相形之下，K80在10%負(fù)載下消耗66%的功率，而英特爾Haswell的最大功耗為56%。

　　Google解釋，這是由于僅15個(gè)月的設(shè)計(jì)時(shí)程相對較短，使得TPU無法加入許多節(jié)能方面的功能。

　　納米緩沖區(qū)約占TPU的37%，媒體存取控制(MAC)組合占30%。雖然TPU比起Nvidia GPU的尺寸更小、功耗更低，但其上的MAC數(shù)量卻是K80的25倍，芯片上存儲器容量則為其3.5倍。

　　TPU搭載PCIe Gen3 x16匯流排，并提供256位元的內(nèi)部納米路徑。主機(jī)CPU將加速器視為浮點(diǎn)運(yùn)算處理器，透過PCIe匯流排傳達(dá)指令。

　　TPU使用與GPU加速器相同的Tensorflow軟體，開發(fā)人員可維持核心驅(qū)動(dòng)器的穩(wěn)定，必要時(shí)調(diào)整使用者空間的驅(qū)動(dòng)程式，以因應(yīng)不斷改變的應(yīng)用。

　　Google發(fā)現(xiàn)，持續(xù)增加的存儲器頻寬對于效能表現(xiàn)的影響最大。平均來說，加速時(shí)脈速度的效益不大，而當(dāng)MAC擴(kuò)增到512x512矩陣時(shí)，加快時(shí)脈速度的效能還將微幅下降。

　　該報(bào)告中指出，從2015年的測試以來，英特爾已經(jīng)推出14納米CPU，Nvidia也推出16納米GPU了。然而，TPU也可能將其外部DDR3存儲器升級到像K80所使用的GDDR5存儲器。

　　報(bào)告中指出：“未來的CPU與GPU在執(zhí)行推論時(shí)將會更快速。采用2015版GPU存儲器而重新設(shè)計(jì)的TPU將會提高兩倍到三倍的速度，而且比K80高出70倍、比Haswell更高200倍的效能功耗比。”

　　Google宣稱在英特爾CPU上執(zhí)行8位元運(yùn)算相當(dāng)辛苦。報(bào)告中提到：“我們原本只有一款CPU執(zhí)行8位元運(yùn)算的結(jié)果，因?yàn)橛行У厥褂闷銩VX2整數(shù)運(yùn)算指令，效果提升了3.5倍。”

　　由于其采用納米處理量為導(dǎo)向的架構(gòu)，即使是改良過的GPU要達(dá)到Google的 7nm延遲目標(biāo)，仍然充滿挑戰(zhàn)。同時(shí)，“這款TPU仍有很大的改進(jìn)空間，所以這不是一個(gè)容易達(dá)成的目標(biāo)。”

　　開發(fā)人員掌握多元化訊息

　　該報(bào)告中提到，研究人員受到熱門的ImageNet比賽吸引，已經(jīng)變得過于投入卷積神經(jīng)網(wǎng)路(CNN)?，F(xiàn)實(shí)世界的應(yīng)用采用更廣泛的神經(jīng)網(wǎng)路類型，報(bào)告并強(qiáng)調(diào)，多層感知(MLP)占Google AI開發(fā)工作的61%。“雖然大部份的架構(gòu)師一直在加速CNN設(shè)計(jì)，但這部份只占5%的工作負(fù)載。”

　　“雖然CNN可能很常見于邊緣裝置，但卷積模型的數(shù)量還趕不上納米中心的多層感知(MLP)和長短期存儲器(LSTM)。我們希望架構(gòu)師盡可能地加速M(fèi)LP和LSTM設(shè)計(jì)，這種情況類似于當(dāng)許多架構(gòu)師專注于浮點(diǎn)運(yùn)算效能時(shí)，大部份的主流工作負(fù)載仍由整數(shù)運(yùn)算主導(dǎo)。”

　　Jouppi說：“我們已經(jīng)開始與一些大學(xué)合作，擴(kuò)大提供免費(fèi)模式。”但他并未透露內(nèi)容細(xì)節(jié)。

　　這篇報(bào)告回顧了二十多年來神經(jīng)網(wǎng)路的相關(guān)納米，包括其競爭對手——微軟(Microsoft)基于FPGA的Catapult計(jì)劃，加速了網(wǎng)路作業(yè)。最初的25W Catapult在200MHz時(shí)脈上運(yùn)作3,926個(gè)18位元MAC，并且以200MHz 時(shí)脈速度執(zhí)行5MB存儲器。Google表示，以Verilog語言設(shè)計(jì)的韌體比起使用TensorFlow軟體來說效率更低。

　　TPU計(jì)劃于2013年開始，當(dāng)時(shí)并以FPGA進(jìn)行了試驗(yàn)。該報(bào)告中提到：“我們舍棄FPGA，因?yàn)槲覀儺?dāng)時(shí)發(fā)現(xiàn)它和GPU相比，在效能上不具競爭力，而TPU比起GPU在相同速度或甚至更快的速度下，可以達(dá)到更低的功耗。”

　　盡管二十多年來，神經(jīng)網(wǎng)路終于在最近從商用市場起飛了。

　　Jouppi說：“我們所有人都被這蓬勃發(fā)展的景象嚇到了，當(dāng)初并未預(yù)期到會有如此大的影響力。一直到五、六年以前，我都還一直抱持懷疑態(tài)度…而今訂單開始逐月增加中。”

　　相較于傳統(tǒng)途徑，深度神經(jīng)網(wǎng)路(DNN)已經(jīng)讓語音辨識的錯(cuò)誤率降低了30%，這是二十年來最大的進(jìn)步。這讓ImageNet影像辨識競賽中的錯(cuò)誤率從2011年的26%降至3.5%。

　　該報(bào)告結(jié)論還提到，“神經(jīng)網(wǎng)路加速器存在的理由在于效能，而在其演進(jìn)過程中，如何達(dá)到良好的直覺判斷，目前還為時(shí)過早。”

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Google TPU

評論

相關(guān)推薦

評論：Google選出的新聞?wù)娴墓龁?

hpnet | 2002-11-14

[Android開發(fā)視頻教學(xué)]搭建Android開發(fā)環(huán)境(02)

視頻 google Android | 2010-10-29

面對新經(jīng)濟(jì)來臨，汽車產(chǎn)業(yè)將如何選擇？

設(shè)計(jì)方案汽車產(chǎn)業(yè) google 傳統(tǒng)汽車 | 2015-09-19

Google Talk - Google 的即時(shí)通訊軟件

資源下載 GOOGLE 通訊 Google Talk - Google | 2007-12-03

Google與Sprint共創(chuàng)手機(jī)圖像搜索服務(wù)

hpnet | 2002-12-20

[Android開發(fā)視頻教學(xué)]Android平臺一日游(01)

視頻 google Android | 2010-10-29

google搜索能找到我們論壇

amine | 2002-05-31

Anthropic將部署谷歌新一代TPU芯片

智能計(jì)算谷歌 Anthropic 人工智能 Cloud TPU v5e 芯片 | 2023-11-13

Google Cloud調(diào)查：經(jīng)濟(jì)景氣差永續(xù)執(zhí)行遇瓶頸

Google Cloud 綠色生活 | 2023-04-20

大家試試http://www.google.com/，可恥的“新時(shí)代資訊網(wǎng)”！

seasoblue | 2002-09-09

谷歌加大“造芯”力度：除了TPU，CPU也開始自研

智能計(jì)算谷歌造芯 TPU CPU | 2024-04-10

IT企業(yè) VS 汽車廠商，智能化駕駛“恐成”定局

設(shè)計(jì)方案智能化駕駛 Google MyFordTouch | 2015-09-21

應(yīng)用于智能汽車Google Earth的GPS導(dǎo)航系統(tǒng)設(shè)計(jì)方案

設(shè)計(jì)方案智能汽車 Google Earth GPS導(dǎo)航 | 2015-09-13

Google.Android開發(fā)入門與實(shí)戰(zhàn)part1

資源下載 Google Android | 2010-11-05

蘋果攜手Google制定產(chǎn)業(yè)規(guī)范打擊不明追蹤

手機(jī)與無線通信蘋果 Google 產(chǎn)業(yè)規(guī)范不明追蹤 | 2023-05-04

人機(jī)界面設(shè)計(jì)基于Android車載虛擬儀表研究分析

設(shè)計(jì)方案 Android車載虛擬儀表 Google | 2015-09-14

混合動(dòng)力車用汽油機(jī)電控節(jié)氣門系統(tǒng)的開發(fā)研究

資源下載電控節(jié)氣門混合動(dòng)力車汽油機(jī) XL TJ376QE MC68376 TPU | 2008-09-20

Google搜索從入門到精通 v4.0 （一）

資源下載 internet Google 搜索工具 | 2007-02-09

[Android開發(fā)視頻教學(xué)]Activity初步(04)

視頻 google Android | 2010-10-29

AI 芯片的未來，未必是 GPU

智能計(jì)算 GPU TPU NPU Cobalt MTIA | 2024-07-02

【對比】自動(dòng)駕駛技術(shù)哪家強(qiáng)？谷歌特斯拉大比拼

設(shè)計(jì)方案 Google 自動(dòng)駕駛無人駕駛 | 2015-09-13

自研Arm CPU，谷歌全面突圍

嵌入式系統(tǒng) 谷歌 Google Axion ARM | 2024-04-12

[Android開發(fā)視頻教學(xué)]Activity和Intent(05)

視頻 google Android | 2010-10-29

1道題目釀千億雪崩！Google私下偷面試「頭號大敵」

智能計(jì)算 ChatGPT Google | 2023-02-13

Google過濾技術(shù)描述

liujt_ic | 2002-12-21

我國研制出世界首個(gè)碳納米管張量處理器芯片

EDA/PCB TPU 碳納米管 | 2024-07-23

臺積電完勝三星！死忠客戶Google轉(zhuǎn)單

EDA/PCB 臺積電三星 Google | 2024-07-02

Google Cloud導(dǎo)入生成式AI 可快速開發(fā)應(yīng)用程序

智能計(jì)算 Google Cloud 生成式AI 應(yīng)用程序 | 2023-03-21

[Android開發(fā)視頻教學(xué)]say_hello_to_Android(03)

視頻 google Android | 2010-10-29

谷歌(Google)拼音輸入法[版本1.1.26.50]

資源下載 GOOGLE 谷歌拼音輸入法瀏覽器 | 2008-01-07

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();