<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 清華AI芯片報告:人才技術趨勢都在這里

          清華AI芯片報告:人才技術趨勢都在這里

          作者: 時間:2018-11-26 來源:智東西 收藏

            深鑒科技。深鑒科技成立于 2016 年,總部在北京。由清華大學與斯坦福大學的世界頂尖深度學習硬件研究者創(chuàng)立。深鑒科技于 2018 年 7 月被賽靈思收購。深鑒科技將其開發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡處理器稱為 DPU。到目前為止,深鑒公開發(fā)布了兩款 DPU:亞里士多德架構和笛卡爾架構,其中,亞里士多德架構是針對卷積神經(jīng)網(wǎng)絡 CNN 而設計;笛卡爾架構專為處理 DNN/RNN 網(wǎng)絡而設計,可對經(jīng)過結(jié)構壓縮后的稀疏神經(jīng)網(wǎng)絡進行極致高效的硬件加速。相對于 Intel XeonCPU 與 Nvidia TitanX GPU,應用笛卡爾架構的處理器在計算速度上分別提高 189 倍與 13 倍,具有 24,000 倍與 3,000 倍的更高能效。

          本文引用地址:http://www.ex-cimer.com/article/201811/394833.htm

            靈汐科技。靈汐科技于 2018 年 1 月在北京成立,聯(lián)合創(chuàng)始人包括清華大學的世界頂尖類腦計算研究者。公司致力于新一代神經(jīng)網(wǎng)絡處理器(Tianjic) 開發(fā), 特點在于既能夠高效支撐現(xiàn)有流行的機器學習算法(包括 CNN, MLP, LSTM 等網(wǎng)絡架構),也能夠支撐更仿腦的、更具成長潛力的脈沖神經(jīng)網(wǎng)絡算法; 使具有高計算力、高多任務并行度和較低功耗等優(yōu)點。 軟件工具鏈方面支持由 Caffe、 TensorFlow 等算法平臺直接進行神經(jīng)網(wǎng)絡的映射編譯,開發(fā)友善的用戶交互界面。 Tianjic 可用于云端計算和終端應用場景,助力人工智能的落地和推廣。

            啟英泰倫。啟英泰倫于2015年 11月在成都成立,是一家語音識別研發(fā)商。啟英泰倫的 CI1006是基于 ASIC 架構的人工智能語音識別,包含了腦神經(jīng)網(wǎng)絡處理硬件單元,能夠完美支持 DNN 運算架構,進行高性能的數(shù)據(jù)并行計算,可極大的提高人工智能深度學習語音技術對大量數(shù)據(jù)的處理效率。

            百度。百度 2017 年 8 月 Hot Chips 大會上發(fā)布了 XPU,這是一款 256 核、基于 FPGA 的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。 XPU 采用新一代 處理架構,擁有 GPU 的通用性和 FPGA 的高效率和低能耗,對百度的深度學習平臺 PaddlePaddle 做了高度的優(yōu)化和加速。據(jù)介紹, XPU 關注計算密集型、基于規(guī)則的多樣化計算任務,希望提高效率和性能,并帶來類似 CPU 的靈活性。

            華為。麒麟 970 搭載的神經(jīng)網(wǎng)絡處理器 NPU 采用了寒武紀 IP,如圖 12 所示。麒麟 970 采用了 TSMC 10nm 工藝制程,擁有 55 億個晶體管,功耗相比上一代芯片降低 20%。 CPU 架構方面為 4 核 A73+4 核 A53 組成 8 核心,能耗同比上一代芯片得到 20%的提升; GPU 方面采用了 12 核 Mali G72 MP12GPU,在圖形處理以及能效兩項關鍵指標方面分別提升 20%和50%; NPU 采用 Hi移動計算架構,在 FP16 下提供的運算性能可以達到 1.92 TFLOPs,相比四個 Cortex-A73 核心,處理同樣的 任務,有大約具備 50 倍能效和 25 倍性能優(yōu)勢。

            英偉達(Nvidia)。英偉達創(chuàng)立于 1993 年,總部位于美國加利福尼亞州圣克拉拉市。 早在 1999 年, 英偉達發(fā)明了 GPU,重新定義了現(xiàn)代計算機圖形技術,徹底改變了并行計算。深度學習對計算速度有非??量痰囊?, 而英偉達的 GPU 芯片可以讓大量處理器并行運算,速度比 CPU 快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發(fā)者的首選。自從 Google Brain 采用 1.6 萬個 GPU 核訓練 DNN 模型, 并在語音和圖像識別等領域獲得巨大成功以來, 英偉達已成為 AI 芯片市場中無可爭議的領導者。

            AMD。美國 AMD 半導體公司專門為計算機、 通信和消費電子行業(yè)設計和制造各種創(chuàng)新的微處理器(CPU、 GPU、 APU、 主板芯片組、 電視卡芯片等),以及提供閃存和低功率處理器解決方案, 公司成立于 1969 年。 AMD 致力為技術用戶——從企業(yè)、 政府機構到個人消費者——提供基于標準的、 以客戶為中心的解決方案。

            2017 年 12 月 Intel 和 AMD 宣布將聯(lián)手推出一款結(jié)合英特爾處理器和 AMD 圖形單元的筆記本電腦芯片。 目前 AMD 擁有針對 AI 和機器學習的高性能 Radeon Instinc 加速卡,開放式軟件平臺 ROCm 等。

            Google。Google 在 2016 年宣布獨立開發(fā)一種名為 TPU 的全新的處理系統(tǒng)。 TPU 是專門為機器學習應用而設計的專用芯片。通過降低芯片的計算精度,減少實現(xiàn)每個計算操作所需晶體管數(shù)量的方式,讓芯片的每秒運行的操作個數(shù)更高,這樣經(jīng)過精細調(diào)優(yōu)的機器學習模型就能在芯片上運行得更快,進而更快地讓用戶得到更智能的結(jié)果。 在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯杰的阿爾法狗,就是采用了谷歌的 TPU 系列芯片。

            Google I/O-2018 開發(fā)者大會期間,正式發(fā)布了第三代人工智能學習專用處理器 TPU 3.0。TPU3.0 采用 8 位低精度計算以節(jié)省晶體管數(shù)量, 對精度影響很小但可以大幅節(jié)約功耗、加快速度,同時還有脈動陣列設計,優(yōu)化矩陣乘法與卷積運算, 并使用更大的片上內(nèi)存,減少對系統(tǒng)內(nèi)存的依賴。 速度能加快到最高 100PFlops(每秒 1000 萬億次浮點計算)。

            高通。在智能手機芯片市場占據(jù)絕對優(yōu)勢的高通公司,也在人工智能芯片方面積極布局。據(jù)高通提供的資料顯示,其在人工智能方面已投資了 Clarifai 公司和中國“專注于物聯(lián)網(wǎng)人工智能服務” 的云知聲。而早在 2015 年 CES 上,高通就已推出了一款搭載驍龍 SoC 的飛行機器人——Snapdragon Cargo。高通認為在工業(yè)、農(nóng)業(yè)的監(jiān)測以及航拍對拍照、攝像以及視頻新需求上,公司恰好可以發(fā)揮其在計算機視覺領域的能力。此外,高通的驍龍 820 芯片也被應用于 VR頭盔中。事實上,高通已經(jīng)在研發(fā)可以在本地完成深度學習的移動端設備芯片。

            Nervana Systems。Nervana 創(chuàng)立于 2014 年, 公司推出的 The Nervana Engine 是一個為深度學習專門定制和優(yōu)化的 ASIC 芯片。這個方案的實現(xiàn)得益于一項叫做 High Bandwidth Memory 的新型內(nèi)存技術, 這項技術同時擁有高容量和高速度,提供 32GB 的片上儲存和 8TB 每秒的內(nèi)存訪問速度。該公司目前提供一個人工智能服務“in the cloud” ,他們聲稱這是世界上最快的且目前已被金融服務機構、醫(yī)療保健提供者和政府機構所使用的服務。 他們的新型芯片將會保證 Nervana 云平臺在未來的幾年內(nèi)仍保持最快的速度。

            Movidius(被 Intel 收購)。2016 年 9 月, Intel 發(fā)表聲明收購了 Movidius。 Movidius 專注于研發(fā)高性能視覺處理芯片。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器,加上專門的DSP 處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以 DSP 架構為基礎的視覺處理器,在視覺相關的應用領域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統(tǒng)中。

            該芯片已被大量應用在 Google 3D 項目的 Tango 手機、大疆無人機、 FLIR 智能紅外攝像機、??瞪铐盗袛z像機、華睿智能工業(yè)相機等產(chǎn)品中。

            IBM。IBM 很早以前就發(fā)布過 watson,投入了很多的實際應用。除此之外,還啟動了類腦芯片的研發(fā), 即 TrueNorth。TrueNorth 是 IBM 參與 DARPA 的研究項目 SyNapse 的最新成果。 SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應可塑可伸縮電子神經(jīng)系統(tǒng),而 SyNapse 正好是突觸的意思),其終極目標是開發(fā)出打破馮·諾依曼體系結(jié)構的計算機體系結(jié)構。

            ARM。ARM 推出全新芯片架構 DynamIQ,通過這項技術, AI 芯片的性能有望在未來三到五年內(nèi)提升 50 倍。

            ARM的新CPU架構將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為 AI 算法設計的處理器。芯片廠商將可以為新處理器配置最多 8 個核心。同時為了能讓主流 AI 在自己的處理器上更好地運行, ARM 還將推出一系列軟件庫。

            CEVA。CEVA 是專注于 DSP 的 IP 供應商,擁有眾多的產(chǎn)品線。其中,圖像和計算機視覺 DSP產(chǎn)品 CEVA-XM4是第一個支持深度學習的可編程 DSP,而其發(fā)布的新一代型號 CEVA-XM6,具有更優(yōu)的性能、更強大的計算能力以及更低的能耗。CEVA 指出,智能手機、汽車、安全和商業(yè)應用,如無人機、自動化將是其業(yè)務開展的主要目標。

            MIT/Eyeriss。Eyeriss 事實上是 MIT 的一個項目,還不是一個公司, 從長遠來看,如果進展順利,很可能孵化出一個新的公司。Eyeriss 是一個高效能的深度卷積神經(jīng)網(wǎng)絡(CNN)加速器硬件,該芯片內(nèi)建 168 個核心,專門用來部署神經(jīng)網(wǎng)路(neural network),效能為一般 GPU 的 10 倍。其技術關鍵在于最小化 GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運作過程通常會消耗大量的時間與能量):一般 GPU 內(nèi)的核心通常共享單一記憶體,但 Eyeriss 的每個核心擁有屬于自己的記憶體。

            目前, Eyeriss 主要定位在人臉識別和語音識別,可應用在智能手機、穿戴式設備、機器人、自動駕駛車與其他物聯(lián)網(wǎng)應用裝置上。

            蘋果。在 iPhone 8 和 iPhone X 的發(fā)布會上,蘋果明確表示其中所使用的 A11 處理器集成了一個專用于機器學習的硬件——“神經(jīng)網(wǎng)絡引擎(Neural Engine) ”, 每秒運算次數(shù)最高可達6000 億次。這塊芯片將能夠改進蘋果設備在處理需要人工智能的任務時的表現(xiàn),比如面部識別和語音識別等。

            三星。2017 年,華為海思推出了麒麟 970 芯片,據(jù)知情人士透露,為了對標華為,三星已經(jīng)研發(fā)了許多種類的人工智能芯片。 三星計劃在未來三年內(nèi)新上市的智能手機中都采用人工智能芯片,并且他們還將為人工智能設備建立新的組件業(yè)務。三星還投資了Graphcore、深鑒科技等人工智能芯片企業(yè)。

            3、技術趨勢

            目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation, 乘加計算) 加速陣列來實現(xiàn)對 CNN(卷積神經(jīng)網(wǎng)絡)中最主要的卷積運算的加速。這一代 AI 芯片主要有如下 3 個方面的問題。

            (1)深度學習計算所需數(shù)據(jù)量巨大,造成內(nèi)存帶寬成為整個系統(tǒng)的瓶頸,即所謂“memory wall” 問題。

            (2)與第一個問題相關, 內(nèi)存大量訪問和 MAC陣列的大量運算,造成 AI芯片整體功耗的增加。

            (3)深度學習對算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時深度學習算法的發(fā)展也是日新月異,新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。

            因此可以預見下一代 AI 芯片將有如下的五個發(fā)展趨勢。

            (1)、更高效的大卷積解構/復用

            在標準 SIMD 的基礎上, CNN 由于其特殊的復用機制,可以進一步減少總線上的數(shù)據(jù)通信。而復用這一概念,在超大型神經(jīng)網(wǎng)絡中就顯得格外重要。 如何合理地分解、 映射這些超大卷積到有效的硬件上成為了一個值得研究的方向,

            (2)、更低的 Inference 計算/存儲位寬

            AI 芯片最大的演進方向之一可能就是神經(jīng)網(wǎng)絡參數(shù)/計算位寬的迅速減少——從 32 位浮點到 16 位浮點/定點、 8 位定點,甚至是 4 位定點。在理論計算領域, 2 位甚至 1 位參數(shù)位寬,都已經(jīng)逐漸進入實踐領域。

            (3)、更多樣的存儲器定制設計

            當計算部件不再成為神經(jīng)網(wǎng)絡加速器的設計瓶頸時,如何減少存儲器的訪問延時將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節(jié)的成本也越高,同時容量也越受限,因此新型的存儲結(jié)構也將應運而生。

            (4)、更稀疏的大規(guī)模向量實現(xiàn)

            神經(jīng)網(wǎng)絡雖然大,但是,實際上有很多以零為輸入的情況, 此時稀疏計算可以高效的減少無用能效。來自哈佛大學的團隊就該問題提出了優(yōu)化的五級流水線結(jié),在最后一級輸出了觸發(fā)信號。在 Activation層后對下一次計算的必要性進行預先判斷,如果發(fā)現(xiàn)這是一個稀疏節(jié)點,則觸發(fā) SKIP 信號,避免乘法運算的功耗,以達到減少無用功耗的目的。

            (5)、計算和存儲一體化

            計算和存儲一體化(process-in-memory)技術,其要點是通過使用新型非易失性存儲(如 ReRAM)器件,在存儲陣列里面加上神經(jīng)網(wǎng)絡計算功能,從而省去數(shù)據(jù)搬移操作,即實現(xiàn)了計算存儲一體化的神經(jīng)網(wǎng)絡處理,在功耗性能方面可以獲得顯著提升。

            智東西認為,近幾年,AI技術不斷取得突破性進展。作為AI技術的重要物理基礎,AI芯片擁有巨大的產(chǎn)業(yè)價值和戰(zhàn)略地位。但從大趨勢來看,目前尚處于AI芯片發(fā)展的初級階段,無論是科研還是產(chǎn)業(yè)應用都有巨大的創(chuàng)新空間?,F(xiàn)在不僅英偉達、谷歌等國際巨頭相繼推出新產(chǎn)品,國內(nèi)百度、阿里等紛紛布局這一領域,也誕生了寒武紀等AI芯片創(chuàng)業(yè)公司。在CPU、GPU等傳統(tǒng)芯片領域與國際相差較多的情況下,中國AI芯片被寄望能實現(xiàn)彎道超車。


          上一頁 1 2 下一頁

          關鍵詞: AI 芯片

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();