TPU比CPU快80倍 秘訣在哪里?
我們生活在一個技術推動整個文明基石的時代。但是,盡管擁有所有輝煌的發(fā)明和技術進步,今天世界比以往更傾向于速度和敏捷性。我們已經(jīng)從傳統(tǒng)的有線撥號互聯(lián)網(wǎng)連接轉(zhuǎn)移到第四代無線網(wǎng)絡。光纖的廣泛分布使得連接到互聯(lián)網(wǎng)并以快速的速度訪問數(shù)據(jù)成為可能。同樣,當涉及到處理器和GPU時,我們已經(jīng)從僅包含6000個晶體管的傳統(tǒng)8位8080微處理器芯片轉(zhuǎn)變?yōu)闀r鐘速度高達1.7 GHz的最先進的Octa核心處理器。
本文引用地址:http://www.ex-cimer.com/article/201809/391585.htm人工智能的發(fā)展越來越抽象,越來越復雜。從早期簡單的是與否的判斷,到后來精準的識別,可以在復雜的場景里找出特定的目標,再到后來,出現(xiàn) AlphaGo 這樣可以做出主動的決策的 AI,甚至智能如 AlphaGo Zero,可以完全依靠自學實現(xiàn)快速成長。
人工智能經(jīng)過這么長時間的發(fā)展,在網(wǎng)絡的種類、復雜程度和處理的信息量上都發(fā)生了天翻地覆的變化。網(wǎng)絡種類上,從早期的 AlexNet 和 GoogleNet 到現(xiàn)在各種各樣的 GAN(生成對抗網(wǎng)絡)以及各種深度強化學習的網(wǎng)絡,它們各自網(wǎng)絡結構都有不同,開發(fā)者在適應最新的網(wǎng)絡上常常會遇到一些麻煩。
處理的信息量也在成倍地增長,算力需求越來越高的情況下,對搭載處理單元的體積有更多限制的機器人實際上存在著在智能水平上升級的障礙。這就是為什么人工智能芯片不斷升級迭代的原因。
人工智能的終極目標是模擬人腦,人腦大概有1000億個神經(jīng)元,1000萬億個突觸,能夠處理復雜的視覺、聽覺、嗅覺、味覺、語言能力、理解能力、認知能力、情感控制、人體復雜機構控制、復雜心理和生理控制,而功耗只有10~20瓦。
可能有很多人會問,目前在人工智能領域,NVidia GPU為什么具有無可撼動的霸主地位,為什么AMD的GPU和NVidia GPU性能相差不多,但是在人工智能領域的受歡迎的程度卻有天壤之別。
2011年,負責谷歌大腦的吳恩達通過讓深度神經(jīng)網(wǎng)絡訓練圖片,一周之內(nèi)學會了識別貓,他用了12片GPU代替了2000片CPU,這是世界上第一次讓機器認識貓。
2016年,谷歌旗下Deepmind團隊研發(fā)的機器人AlphaGo以4比1戰(zhàn)勝世界圍棋冠軍職業(yè)九段棋手李世石(AlphaGo的神經(jīng)網(wǎng)絡訓練用了50片GPU,走棋網(wǎng)絡用了174片GPU),引發(fā)了圍棋界的軒然大波,因為圍棋一直被認為是人類智力較量的巔峰,這可以看做是人工智能史上的又一個重大里程碑事件。
谷歌并不是唯一一家為這種設備上的AI任務設計芯片的公司。 ARM,Qualcomm,Mediatek和其他公司都制造了自己的AI加速器,而Nvidia制造的GPU在培訓算法市場上占據(jù)了主導地位。
然而,Google的競爭對手并沒有控制整個AI堆棧。 客戶可以將他們的數(shù)據(jù)存儲在Google的云端; 使用TPU訓練他們的算法; 然后使用新的Edge TPU進行設備上推斷。而且,他們很可能會使用TensorFlow創(chuàng)建他們的機器學習軟件--TensorFlow是由Google創(chuàng)建和運營的編碼框架。
這種垂直整合具有明顯的好處。 Google可以確保所有這些不同的部分盡可能高效,順暢地相互通信,使客戶更容易在公司的生態(tài)系統(tǒng)中玩游戲。
2016年5月的谷歌I/O大會,谷歌首次公布了自主設計的TPU,2017年谷歌I/O大會,谷歌宣布正式推出第二代TPU處理器,在今年的Google I/0 2018大會上,谷歌發(fā)布了新一代TPU處理器——TPU 3.0。TPU 3.0的性能相比目前的TPU 2.0有8倍提升,可達10億億次。
TPU全名為Tensor Processing Unit,是谷歌研發(fā)的一種神經(jīng)網(wǎng)絡訓練的處理器,主要用于深度學習、AI運算。在7月份的Next 云端大會,谷歌又發(fā)布了 Edge TPU 芯片搶攻邊緣計算市場。雖然都是 TPU,但邊緣計算用的版本與訓練機器學習的 Cloud TPU 不同,是專門用來處理AI預測部分的微型芯片。Edge TPU可以自己運行計算,而不需要與多臺強大計算機相連,因此應用程序可以更快、更可靠地工作。它們可以在傳感器或網(wǎng)關設備中與標準芯片或微控制器共同處理AI工作。
評論