AI芯片彰顯威力:各領(lǐng)域最強(qiáng)算力被巨頭把控
我們認(rèn)為, 云端推斷芯片在未來(lái)會(huì)呈現(xiàn)百花齊放的態(tài)勢(shì)。 具體情況如下:
本文引用地址:http://www.ex-cimer.com/article/201810/393278.htmNvidia
在云端推斷芯片領(lǐng)域, Nvidia 主打產(chǎn)品為 P40 和 P4, 二者均采用 TSMC 16nm 制程。 TeslaP4 擁有 2560 個(gè)流處理器,每秒可進(jìn)行 22 萬(wàn)億次(TOPS) 計(jì)算(對(duì)應(yīng) INT 8)。而性能更強(qiáng)的 Tesla P40 擁有 3840 個(gè)流處理器,每秒可進(jìn)行 47 萬(wàn)億次(TOPS)計(jì)算(對(duì)應(yīng) INT 8)。從單位功耗推斷能力來(lái)看, P4/P40 雖然有進(jìn)步,但仍遜于 TPU。 GPU 在推斷上的優(yōu)勢(shì)是帶寬。
Google TPU 1.0 為云端推斷而生,其運(yùn)算單元對(duì)神經(jīng)網(wǎng)絡(luò)中的乘加運(yùn)算進(jìn)行了優(yōu)化,并采用整數(shù)運(yùn)算。 TPU 1.0 單位功耗算力在量產(chǎn)云端推端芯片中最強(qiáng),達(dá) 1.2TOPS/Watt,優(yōu)于主流 Nvidia GPU。 TPU 2.0 在推斷表現(xiàn)上相比于 1 代并沒(méi)有本質(zhì)提升,主要進(jìn)步是引入對(duì)浮點(diǎn)數(shù)運(yùn)算的支持,及更高的片上內(nèi)存。正如前文所述,支持訓(xùn)練的 TPU 功耗也會(huì)變得更高。
Wave Computing
Wave computing 于 2010 年 12 月成立于加州,目前累計(jì)融資 1.2 億美元,是專注于云端深度學(xué)習(xí)訓(xùn)練和推理的初創(chuàng)公司。Wave computing 的一代 DPU 深度學(xué)習(xí)算力達(dá) 180 TOPS,且無(wú)需 CPU 來(lái)管理工作流。目前公司正與 Broadcomm 合作在開(kāi)發(fā)二代芯片,將采用 7nm制程。
Groq
Groq 是由 Google TPU 初始團(tuán)隊(duì)離職創(chuàng)建的 AI 芯片公司,計(jì)劃在 2018 年發(fā)布第一代 AI芯片產(chǎn)品,對(duì)標(biāo)英偉達(dá)的 GPU。其算力可達(dá) 400 TOPs(INT 8),單位能耗效率表現(xiàn)搶眼。
寒武紀(jì)科技
寒武紀(jì)在 2017 年 11 月發(fā)布云端芯片 MLU 100,同時(shí)支持訓(xùn)練和推斷,但更側(cè)重于推斷。MLU 100 在 80W 的功耗下就可以達(dá)到 128 TOPS(對(duì)應(yīng) INT 8)的運(yùn)算能力。
比特大陸
比特大陸的計(jì)算芯片 BM 1680,集成了深度學(xué)習(xí)算法硬件加速模塊(NPUs),應(yīng)用于云端計(jì)算與推理。 BM1680 還提供了 4 個(gè)獨(dú)立的 DDR4 通道,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。其典型功耗只有 25W,在單位能耗推斷效率上有一定優(yōu)勢(shì)。
應(yīng)用場(chǎng)景1:云端推斷芯片助力智能語(yǔ)音識(shí)別
云端推斷芯片提升語(yǔ)音識(shí)別速度。 語(yǔ)音識(shí)別是推斷芯片的工作場(chǎng)景之一,如 Amazon 的語(yǔ)音助手 Alexa,其“智能”來(lái)自于 AWS 云中的推斷芯片。 Alexa 是預(yù)裝在亞馬遜 Echo內(nèi)的個(gè)人虛擬助手,可以接收及相應(yīng)語(yǔ)音命令。通過(guò)將語(yǔ)音數(shù)據(jù)上傳到云端,輸入推斷芯片進(jìn)行計(jì)算,再返回結(jié)果至本地來(lái)達(dá)到與人實(shí)現(xiàn)交互的目的。原先云端采用 CPU 進(jìn)行推斷工作,由于算力低,識(shí)別中會(huì)有 300-400ms 的延遲,影響用戶體驗(yàn)。
智能音箱通過(guò)云端推斷芯片工作
而現(xiàn)今 AWS 云中采用了 Nvidia 的 P40 推斷芯片,結(jié)合 Tensor RT 高性能神經(jīng)網(wǎng)絡(luò)推理引擎(一個(gè) C++庫(kù)),可以將延遲縮減到 7ms。 此外, AI 芯片支持深度學(xué)習(xí),降低了語(yǔ)音識(shí)別錯(cuò)誤率。 目前, 借助云端芯片的良好推斷能力,百度語(yǔ)音助手的語(yǔ)音識(shí)別準(zhǔn)確度已達(dá)到 97%之高。
Nvidia 云端推斷芯片提升語(yǔ)音識(shí)別速度
應(yīng)用場(chǎng)景2:推斷芯片應(yīng)用于智能搜索
RankBrain 是 Google 眾多搜索算法的一部分,它是一套計(jì)算機(jī)程序,能把知識(shí)庫(kù)中上十億個(gè)頁(yè)面進(jìn)行排序,然后找到與特定查詢最相關(guān)的結(jié)果。 目前, Google 每天要處理 30 億條搜索,而其中 15%的詞語(yǔ)是 Google 沒(méi)有見(jiàn)過(guò)的。 RankBrain 可以觀察到看似無(wú)關(guān)復(fù)雜搜索之間的模式,并理解它們實(shí)際上是如何彼此關(guān)聯(lián)的, 實(shí)現(xiàn)了對(duì)輸入的語(yǔ)義理解。 這種能力離不開(kāi) Google 云端推斷芯片 TPU 的輔助。
推斷芯片助力深度學(xué)習(xí)實(shí)現(xiàn)語(yǔ)義識(shí)別
先前,在沒(méi)有深度學(xué)習(xí)情況下,單純依靠 PageRanking 及 InvertedIndex, Google 也能實(shí)現(xiàn)一定程度的對(duì)搜索詞條排序的優(yōu)化,但準(zhǔn)確率不夠。 TPU 利用 RankBrain 中的深度學(xué)習(xí)模型,在 80%的情況下計(jì)算出的置頂詞條,均是人們最想要的結(jié)果。
TPU+RankBrain 在推斷正確率上獲得提高
用于智能手機(jī)的邊緣推斷芯片:競(jìng)爭(zhēng)格局穩(wěn)定,傳統(tǒng)廠商持續(xù)受益
手機(jī)芯片市場(chǎng)目前包括:(1)蘋(píng)果,三星,華為這類采用芯片+整機(jī)垂直商業(yè)模式的廠商,以及(2)高通,聯(lián)發(fā)科,展銳等獨(dú)立芯片供應(yīng)商和(3) ARM, Synopsys、 Cadence 等向芯片企業(yè)提供獨(dú)立 IP 授權(quán)的供應(yīng)商。 采用垂直商業(yè)模式廠商的芯片不對(duì)外發(fā)售,只服務(wù)于自身品牌的整機(jī),性能針對(duì)自身軟件做出了特殊優(yōu)化,靠效率取勝。獨(dú)立芯片供應(yīng)商以相對(duì)更強(qiáng)的性能指標(biāo),來(lái)獲得剩余廠商的市場(chǎng)份額。
從 2017 年開(kāi)始,蘋(píng)果,華為海思,高通,聯(lián)發(fā)科等主要芯片廠商相繼發(fā)布支持 AI 加速功能的新一代芯片(如下圖), AI 芯片逐漸向中端產(chǎn)品滲透。由于手機(jī)空間有限, 獨(dú)立的AI 芯片很難被手機(jī)廠采用。在 AI 加速芯片設(shè)計(jì)能力上有先發(fā)優(yōu)勢(shì)的企業(yè)(如寒武紀(jì))一般通過(guò) IP 授權(quán)的方式切入。
手機(jī) AI 芯片對(duì)比
對(duì)這些廠商來(lái)說(shuō),我們認(rèn)為 AI 化的主要作用是提升芯片附加價(jià)值與產(chǎn)品單價(jià)。根據(jù) IHS的數(shù)據(jù),隨著硬件性能的增強(qiáng)及針對(duì)于 AI 的運(yùn)算結(jié)構(gòu)不斷滲透,蘋(píng)果 A11 芯片的成本已達(dá)到 27.5 美元。
智能手機(jī) SoC 市占率分析(2017)
芯片成本持續(xù)上漲有望帶動(dòng)垂直模式廠商整機(jī)售價(jià)走高,在出貨量相同的情況下為現(xiàn)有芯片廠商貢獻(xiàn)更多的營(yíng)業(yè)收入。高通、聯(lián)發(fā)科、展銳等獨(dú)立芯片供應(yīng)商則會(huì)受益于芯片本身 ASP 的提升。
歷代 Apple 手機(jī)芯片成本趨勢(shì)
應(yīng)用場(chǎng)景1:推斷芯片為 AI 拍照技術(shù)提供硬件支持
智能手機(jī)通過(guò) AI 算法+終端推斷芯片,可實(shí)現(xiàn)對(duì)于現(xiàn)實(shí)世界圖像的智能識(shí)別,并在此基礎(chǔ)上進(jìn)行實(shí)時(shí)優(yōu)化:
1)從整個(gè)場(chǎng)景識(shí)別,到特殊優(yōu)化過(guò)程中,推斷芯片為算法運(yùn)行提供硬件支持。
2)手機(jī)推斷芯片中 GPU、 NPU 等單元的協(xié)同工作,實(shí)現(xiàn)了對(duì)邊緣虛化更準(zhǔn)確的處理,使小尺寸感光元件的手機(jī)獲得“單反” 級(jí)的景深效果,增加相片的層次感。
3)人臉結(jié)構(gòu)的識(shí)別也離不開(kāi)邊緣推斷芯片,芯片性能的提升直接導(dǎo)致了 AI 美顏、 3D 光效等特殊效果變得更加自然。 如果缺少終端芯片的支持,一旦運(yùn)行高負(fù)載的 AI 任務(wù)手機(jī)就需要呼喚云端。而云端的相應(yīng)速度不夠,導(dǎo)致 AI 攝影的識(shí)別率和準(zhǔn)確率下降,用戶體驗(yàn)將大打折扣。
手機(jī) AI 芯片輔助圖片渲染優(yōu)化
應(yīng)用場(chǎng)景2:推斷芯片助力語(yǔ)音助手處理復(fù)雜命令
從“聽(tīng)清”到“聽(tīng)懂”,自然語(yǔ)言理解能力提升與推斷芯片硬件的支持分不開(kāi):多麥克風(fēng)方案的普及解決了“聽(tīng)清”的問(wèn)題,而到“聽(tīng)懂”的跨越中自然語(yǔ)言理解能力是關(guān)鍵。這不僅對(duì)云端訓(xùn)練好的模型質(zhì)量有很高要求,也必須用到推斷芯片大量的計(jì)算。隨著對(duì)話式 AI 算法的發(fā)展,手機(jī) AI 芯片性能的提升,語(yǔ)音助手在識(shí)別語(yǔ)音模式、分辨模糊語(yǔ)音、剔除環(huán)境噪聲干擾等方面能力得到了優(yōu)化,可以接受理解更加復(fù)雜的語(yǔ)音命令。
手機(jī) AI 芯片輔助 Vivo Jovi 處理復(fù)雜命令
用于安防邊緣推斷芯片: 海思、安霸與 Nvidia、 Mobileye 形成有力競(jìng)爭(zhēng)
視頻監(jiān)控行業(yè)在過(guò)去十幾年主要經(jīng)歷了“高清化”、“網(wǎng)絡(luò)化”的兩次換代,而隨著 2016年以來(lái) AI 在視頻分析領(lǐng)域的突破,目前視頻監(jiān)控行業(yè)正處于第三次重要升級(jí)周期——“智能化”的開(kāi)始階段。 前端攝像頭裝備終端推斷芯片,可以實(shí)時(shí)對(duì)視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,“云+邊緣”的邊緣計(jì)算解決方案逐漸滲透。 我們預(yù)計(jì), 應(yīng)用安防攝像頭的推斷芯片市場(chǎng)規(guī)模,將從 2017 年的 3.3 億美元,增長(zhǎng)至 2022 年的 18 億美元, CAGR~41%。
應(yīng)用場(chǎng)景:安防邊緣推斷芯片實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)提取,減輕云端壓力
即便采用 H.265 編碼,目前每日從攝像機(jī)傳輸?shù)皆贫说臄?shù)據(jù)也在 20G 左右,不僅給存儲(chǔ)造成了很大的壓力,也增加了數(shù)據(jù)的傳輸時(shí)間。 邊緣推斷芯片在安防端的主要應(yīng)用,基于將視頻流在本地轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。 這樣既節(jié)省云端存儲(chǔ)空間, 也提升系統(tǒng)工作效率。“視頻結(jié)構(gòu)化”,簡(jiǎn)言之即從視頻中結(jié)構(gòu)化提取關(guān)鍵目標(biāo),包括車輛、人及其特征等。雖然這種對(duì)數(shù)據(jù)的有效壓縮要通過(guò)算法實(shí)現(xiàn),但硬件的支持不可或缺。
視頻結(jié)構(gòu)化數(shù)據(jù)提取實(shí)例
根據(jù)海康威視提供傳統(tǒng)視頻解碼芯片廠商積極布局 AI 升級(jí)。 華為海思、安霸(Ambarella)都在近一年內(nèi)推出了支持 AI 的安防邊緣推斷芯片。海思的 HI3559A 配備了雙核神經(jīng)網(wǎng)絡(luò)加速引擎,并成為第一款支持 8k 視頻的芯片;安霸也通過(guò)集成 Cvflows 張量處理器到最新的 CV2S 芯片中,以實(shí)現(xiàn)對(duì) CNN/DNN 算法的支持。
AI 芯片助力結(jié)構(gòu)化分析實(shí)現(xiàn)工作效率提升
打入視頻監(jiān)控解決方案龍頭??低?,實(shí)現(xiàn)前裝的 Nvidia,Movidius 同樣不甘示弱, Movidius 發(fā)布的最新產(chǎn)品 Myriad X 搭載神經(jīng)計(jì)算引擎,在 2W的功耗下可實(shí)現(xiàn) 1TOPS 的算力。Nvidia TX2 是 TX1 的升級(jí)產(chǎn)品,算力更強(qiáng),達(dá)到 1.5TFLOPS,存儲(chǔ)能力也有提升。
安防 AI 芯片對(duì)比
我們認(rèn)為,目前整個(gè)安防 AI 芯片市場(chǎng)競(jìng)爭(zhēng)格局穩(wěn)定,現(xiàn)有廠商憑借與下游客戶長(zhǎng)期的合作,有望繼續(xù)受益于安防智能化的升級(jí),屬于新進(jìn)入者的市場(chǎng)空間有限。 安防 AI 芯片下游客戶穩(wěn)定,為??低暋⒋笕A股份等視頻監(jiān)控解決方案提供商??蛻襞c傳統(tǒng)視頻解碼芯片廠商的長(zhǎng)期合作具有粘性,同樣推出新產(chǎn)品,初創(chuàng)公司的競(jìng)爭(zhēng)優(yōu)勢(shì)弱一些,尤其是在安防 AI 芯片性能差異化很難做到很大的情況下。
用于自動(dòng)駕駛的邊緣推斷芯片:一片藍(lán)海,新競(jìng)爭(zhēng)者有望突圍
除了智能手機(jī), 安防外, 自動(dòng)駕駛汽車也是人工智能的落地場(chǎng)景之一。 車用半導(dǎo)體強(qiáng)大需求已經(jīng)使供給端產(chǎn)能開(kāi)始吃緊,而用于自動(dòng)駕駛的推斷芯片需求,同樣有望在未來(lái) 5年內(nèi)實(shí)現(xiàn)高速增長(zhǎng)。我們預(yù)計(jì),其市場(chǎng)規(guī)模將從 2017 年的 8.5 億美元,增長(zhǎng)至 2022 年的 52 億美元,CAGR~44%。若想使車輛實(shí)現(xiàn)真正的自動(dòng)駕駛,要經(jīng)歷在感知-建模-決策三個(gè)階段,每個(gè)階段都離不開(kāi)終端推斷芯片的計(jì)算。
應(yīng)用場(chǎng)景1:自動(dòng)駕駛芯片助力環(huán)境感知
在車輛感知周圍環(huán)境的過(guò)程中,融合各路傳感器的數(shù)據(jù)并進(jìn)行分析是一項(xiàng)艱巨的工作,推斷芯片在其中起到了關(guān)鍵性作用。 我們首先要對(duì)各路獲得的“圖像”數(shù)據(jù)進(jìn)行分類,在此基礎(chǔ)之上,以包圍盒的(bounding box) 形式辨別出圖像中的目標(biāo)具體在什么位置。
但這并不能滿足需求:車輛必須要辨別目標(biāo)到底是其他車輛,是標(biāo)志物,是信號(hào)燈,還是人等等,因?yàn)椴煌繕?biāo)的行為方式各異,其位置、狀態(tài)變化,會(huì)影響到車輛最終的決策,因而我們要對(duì)圖像進(jìn)行語(yǔ)義分割(segmantation,自動(dòng)駕駛的核心算法技術(shù))。語(yǔ)義分割的快慢和推斷芯片計(jì)算能力直接相關(guān),時(shí)延大的芯片很顯然存在安全隱患,不符合自動(dòng)駕駛的要求。
自動(dòng)駕駛推斷芯片+算法實(shí)現(xiàn)視頻的像素級(jí)語(yǔ)義分割
應(yīng)用場(chǎng)景2:自動(dòng)駕駛芯片助力避障規(guī)劃
避障規(guī)劃是車輛主要探測(cè)障礙物, 并對(duì)障礙物的移動(dòng)軌跡跟蹤(Moving object detection and tracking,即 MODAT)做出下一步可能位臵的推算,最終繪制出一幅含有現(xiàn)存、及潛在風(fēng)險(xiǎn)障礙物地圖的行為。出于安全的要求,這個(gè)風(fēng)險(xiǎn)提示的時(shí)延應(yīng)該被控制在 50ms級(jí)。
隨著車速越來(lái)越快,無(wú)人車可行駛的路況越來(lái)越復(fù)雜,該數(shù)值在未來(lái)需要進(jìn)一步縮短,對(duì)算法效率及推斷芯片的算力都是極大的挑戰(zhàn)。 例如,在復(fù)雜的城區(qū)路況下,所需算力可能超過(guò) 30TOPS。未來(lái) V2X 地圖的加入,將基本上確保了無(wú)人車的主動(dòng)安全性,但同樣對(duì)推斷芯片的性能提出了更高的要求。
自動(dòng)駕駛推斷芯片+算法實(shí)現(xiàn)自動(dòng)駕駛避障規(guī)劃
從以上應(yīng)用場(chǎng)景不難看出, 自動(dòng)駕駛對(duì)芯片算力提出了很高的要求, 而受限于時(shí)延及可靠性,有關(guān)自動(dòng)駕駛的計(jì)算不能在云端進(jìn)行,因此邊緣推斷芯片升級(jí)勢(shì)在必行。根據(jù)豐田公司的統(tǒng)計(jì)數(shù)據(jù),實(shí)現(xiàn) L5 級(jí)完全自動(dòng)駕駛,至少需要 12TOPS 的推斷算力,按現(xiàn)行先進(jìn)的 Nvidia PX2 自動(dòng)駕駛平臺(tái)測(cè)算,差不多需要 15 塊 PX2 車載計(jì)算機(jī),才能滿足完全自動(dòng)駕駛的需求。
自動(dòng)駕駛算力需求加速芯片升級(jí)
傳統(tǒng)車載半導(dǎo)體廠商積極布局自動(dòng)駕駛。 近些年來(lái),各傳統(tǒng)車載半導(dǎo)體供應(yīng)商紛紛涉獵自動(dòng)駕駛業(yè)務(wù),推出了各自的自動(dòng)駕駛,或輔助駕駛平臺(tái),如 TI 推出了面向于 L1/2 級(jí)的平價(jià)產(chǎn)品,而 Renesas 和 NXP 步入中高端市場(chǎng)。 V3M 與 Bluebox 分別是兩家的代表性產(chǎn)品,均滿足客戶 L3 級(jí)自動(dòng)駕駛需求。目前 NXP 的 Bluebox 2.0 也在測(cè)試中。
老牌廠商中Mobileye(被 Intel 收購(gòu)) 在自動(dòng)駕駛邊緣推斷芯片上表現(xiàn)最為搶眼,其 EyeQ3 芯片已經(jīng)被集成于新一代量產(chǎn) Audi A8 中的 zFAS 平臺(tái)上,而 A8 也因此成為第一款支持 L3 級(jí)自動(dòng)駕駛的車型。
下一代產(chǎn)品中, Mobileye 和新秀 Nvidia 有望實(shí)現(xiàn)領(lǐng)先。 Mobileye 更注重算法端, 強(qiáng)調(diào)軟硬件結(jié)合帶來(lái)的效率提升,其開(kāi)發(fā)的最新 EyeQ5 芯片在 10W 的功耗下就能達(dá)到 24TOPS的算力。 英偉達(dá)作為傳統(tǒng)硬件廠商,借助于 GPU 圖形處理的優(yōu)勢(shì),也在自動(dòng)駕駛市場(chǎng)取得了相應(yīng)的領(lǐng)先地位,其芯片更注重絕對(duì)算力表現(xiàn)。將于今年三季度流片, 2019 年三季度量產(chǎn)的“算力怪獸” Pegasus 平臺(tái),搭載了兩塊 Nvidia 下一代的 GPU,將實(shí)現(xiàn) 320TOPS的超強(qiáng)計(jì)算能力,完全覆蓋 L5 級(jí)別應(yīng)用的需求。
自動(dòng)駕駛平臺(tái)對(duì)比
對(duì)比其他終端應(yīng)用場(chǎng)景,自動(dòng)駕駛不僅計(jì)算復(fù)雜程度最高,車規(guī)級(jí)要求也為芯片設(shè)立了更高的準(zhǔn)入門(mén)檻, 其硬件升級(jí)落地相對(duì)緩慢。 目前各廠商下一代的自動(dòng)駕駛平臺(tái)最早計(jì)劃于 2019 年量產(chǎn),現(xiàn)今上市平臺(tái)中,芯片大多只支持 L2/3 級(jí)。之前 Uber 的無(wú)人車事故,也對(duì)整個(gè)行業(yè)的發(fā)展造成了拖累。
下一代自動(dòng)駕駛 AI 芯片流片及投產(chǎn)時(shí)間預(yù)估
自動(dòng)駕駛芯片市場(chǎng)仍處于初期起步階段。 雖然 NXP 等傳統(tǒng)半導(dǎo)體廠商深耕于汽車電子多年,獲得了一定的客戶粘性,但在自動(dòng)駕駛業(yè)務(wù)上,整個(gè)市場(chǎng)還未形成非常明顯的競(jìng)爭(zhēng)格局??蛻粢苍诓粩鄿y(cè)試芯片廠商的產(chǎn)品,來(lái)實(shí)現(xiàn)最優(yōu)選擇。根據(jù)各公司披露的數(shù)據(jù),目前各大芯片廠商與整車廠(OEM)及 Tier 1 廠商都開(kāi)展了緊密的合作,但客戶數(shù)量不相上下。
從客戶的偏好來(lái)看,傳統(tǒng)大廠愿意自行搭建平臺(tái), 再采購(gòu)所需芯片,而新車廠偏向于直接購(gòu)買自動(dòng)駕駛平臺(tái)。 介于實(shí)現(xiàn)完全自動(dòng)駕駛非常復(fù)雜,目前還在起步階段,我們認(rèn)為初創(chuàng)公司在整個(gè)行業(yè)的發(fā)展中是有機(jī)會(huì)的,并看好技術(shù)領(lǐng)先,能與車廠達(dá)成密切合作的初創(chuàng)公司。
各芯片廠商合作方比較
主要中國(guó) AI 芯片公司介紹
中國(guó)大陸目前有超 20 家企業(yè)投入 AI 芯片的研發(fā)中來(lái)。 除了像華為海思、紫光展銳這種深耕于芯片設(shè)計(jì)多年的企業(yè)之外,也有不少初創(chuàng)公司表現(xiàn)搶眼,如寒武紀(jì)、比特大陸等。此外,臺(tái)灣地區(qū)的 GUC(創(chuàng)意電子)是一家 IC 后端設(shè)計(jì)公司,憑借 20 年的行業(yè)經(jīng)驗(yàn),和投資方晶圓制造巨頭臺(tái)積電的鼎力支持,在 AI 芯片高速發(fā)展的大環(huán)境下也有望受益。
中國(guó)大陸主要 AI 芯片設(shè)計(jì)公司至少有 20 家
以下企業(yè)值得關(guān)注:
海思半導(dǎo)體(Hisilicon)
海思半導(dǎo)體成立于 2004 年 10 月,是華為集團(tuán)的全資子公司。海思的芯片產(chǎn)品覆蓋無(wú)線網(wǎng)絡(luò)、固網(wǎng)及數(shù)字媒體等多個(gè)領(lǐng)域,其 AI 芯片為 Kirin 970 手機(jī) SoC 及安防芯片 Hi3559A V100。 Kirin 970 集成 NPU 神經(jīng)處理單元,是全球第一款手機(jī) AI 芯片, 它在處理靜態(tài)神經(jīng)網(wǎng)絡(luò)模型方面有得天獨(dú)厚的優(yōu)勢(shì)。而 Hi3559A V100 是一款性能領(lǐng)先的支持 8k 視頻的 AI芯片。
清華紫光展銳 (Tsinghua UNISOC)
清華紫光集團(tuán)于 2013 年、 2014 年先后完成對(duì)展訊及銳迪科微電子的收購(gòu), 2016 年再將二者合并,成立紫光展銳。紫光展銳是全球第三大手機(jī)基帶芯片設(shè)計(jì)公司,是中國(guó)領(lǐng)先的 5G 通信芯片企業(yè)。 Gartner 的數(shù)據(jù)顯示,紫光展銳手機(jī)基帶芯片 2017 年出貨量的全球占比為 11%。除此之外,展銳還擁有手機(jī) AI 芯片業(yè)務(wù),推出了采用 8 核 ARM A55 處理器的人工智能 SoC 芯片 SC9863,支持基于深度神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別技術(shù), AI 處理能力比上一代提升 6 倍。
GUC(臺(tái)灣創(chuàng)意電子, 3443 TT)
公司介紹: GUC 是彈性客制化 IC 領(lǐng)導(dǎo)廠商(The Flexible ASIC LeaderTM),主要從事 IC 后端設(shè)計(jì)。后端設(shè)計(jì)工作以布局布線為起點(diǎn),以生成可以送交晶圓廠進(jìn)行流片的 GDS2 文件為終點(diǎn),需要很多的經(jīng)驗(yàn),是芯片實(shí)現(xiàn)流片的重要一環(huán)。初創(chuàng)公司同時(shí)完成前后端設(shè)計(jì)難度較大。在 AI 芯片設(shè)計(jì)發(fā)展的大環(huán)境下,加上大股東臺(tái)積電的支持, GUC 有望獲得大的后端訂單。 公司已在臺(tái)灣證券交易所掛牌上市,股票代號(hào)為 3443。
以下為初創(chuàng)公司:
寒武紀(jì)科技(Cambricon Technologies)
寒武紀(jì)創(chuàng)立于 2016 年 3 月,是中科院孵化的高科技企業(yè),主要投資人為國(guó)投創(chuàng)業(yè)和阿里巴巴等。公司產(chǎn)品分為終端 AI 芯片及云端 AI 芯片。終端 AI 芯片采用 IP 授權(quán)模式,其產(chǎn)品 Cambricon-1A 是全球首個(gè)實(shí)現(xiàn)商用的深度學(xué)習(xí)處理器 IP。去年年底公司新發(fā)布了第三代機(jī)器學(xué)習(xí)專用 IP Cambricon-1M,采用 7nm 工藝,性能差不多高出 1A 達(dá) 10 倍。云端產(chǎn)品上,寒武紀(jì)開(kāi)發(fā)了 MLU 100 AI 芯片,支持訓(xùn)練和推斷,單位功耗算力表現(xiàn)突出。
比特大陸(Bitmain)
比特大陸成立于 2013 年 10 月, 是全球第一大比特幣礦機(jī)公司,目前占領(lǐng)了全球比特幣礦機(jī) 60%以上的市場(chǎng)。由于 AI 行業(yè)發(fā)展迅速及公司發(fā)展需要,公司將業(yè)務(wù)拓展至 AI 領(lǐng)域,并于與 2017 年推出云端 AI 芯片 BM1680,支持訓(xùn)練和推斷。目前公司已推出第二代產(chǎn)品BM1682,相較上一代性能提升 5 倍以上。
地平線機(jī)器人(Horizon Robotics)
成立于 2015 年 7 月,地平線是一家注重軟硬件結(jié)合的 AI 初創(chuàng)公司,由 Intel、嘉實(shí)資本、高瓴資本領(lǐng)投。公司主攻安防和自動(dòng)駕駛兩個(gè)應(yīng)用場(chǎng)景,產(chǎn)品為征程 1.0 芯片(支持 L2自動(dòng)駕駛)和旭日 1.0(用于安防智能攝像頭),具有高性能(實(shí)時(shí)處理 1080P@30 幀,并對(duì)每幀中的 200 個(gè)目標(biāo)進(jìn)行檢測(cè)、跟蹤、識(shí)別)、低功耗(典型功耗在 1.5W)、和低延遲的優(yōu)勢(shì)(延遲小于 30 毫秒)。公司二代自動(dòng)駕駛芯片將于 1Q19 流片,實(shí)現(xiàn)語(yǔ)義建模。
云天勵(lì)飛(Intellifusion)
公司創(chuàng)立于 2014 年 8 月,由山水從容傳媒、松禾資本領(lǐng)投,主攻安防 AI 芯片。其自研IPU 芯片是低功耗的深度學(xué)習(xí)專用處理器,內(nèi)含專用圖像處理加速引擎,通過(guò)級(jí)聯(lián)擴(kuò)展最多可處理 64 路視頻。能耗比突出,超過(guò) 2Tops/Watt。
異構(gòu)智能(NovuMind)
異構(gòu)智能創(chuàng)立于 2015 年 8 月,由洪泰基金、寬帶資本、真格基金和英諾天使投資。 2018年公司展示了其首款云端 AI 芯片 NovuTensor,基于 FPGA 實(shí)現(xiàn),性能已達(dá)到目前最先進(jìn)的桌面服務(wù)器 GPU 的一半以上,而耗電量?jī)H有 1/20。公司即將推出的第二款 ASIC 芯片,能耗不超 5W, 計(jì)算性能達(dá) 15 TOPs,將被用于安防和自動(dòng)駕駛應(yīng)用中。
龍加智(Dinoplus)
創(chuàng)立于 2017 年 7 月龍加智是專注于云端芯片的 AI 初創(chuàng)公司,由摯信資本和翊翎資本領(lǐng)投。其產(chǎn)品 Dino-TPU 在 75W 功耗下,計(jì)算能力超過(guò)除最新款 Nvidia Volta 之外的所有 GPU,時(shí)延僅為 Volta V100 的 1/10。同時(shí), Dino-TPU 提供市場(chǎng)上獨(dú)一無(wú)二的冗余備份和數(shù)據(jù)安全保障。 公司計(jì)劃于 2018 年底完成第一款芯片的流片。
評(píng)論