AI芯片能力亟需提高,數(shù)據(jù)仍是AI核心
作者/上海兆芯集成電路有限公司GPU架構(gòu)總設(shè)計(jì)師 顧德明
本文引用地址:http://www.ex-cimer.com/article/201805/379457.htm目前,全球技術(shù)正面臨著一場(chǎng)巨大的變革,智能無處不在的浪潮已然悄然到來!政府先后推出《新一代人工智能發(fā)展規(guī)劃》和《促進(jìn)新一代人工智能發(fā)展三年行動(dòng)計(jì)劃(2018-2020年)》,把AI提高到國家戰(zhàn)略層次,建立了相對(duì)完整的研發(fā)促進(jìn)機(jī)制,協(xié)同推進(jìn)AI發(fā)展。當(dāng)下,傳統(tǒng)行業(yè)例如工業(yè)控制、醫(yī)療影像、零售、汽車、安防等都在思考如何向智能方向轉(zhuǎn)型。
作為AI核心的處理器技術(shù),其最新發(fā)展為設(shè)計(jì)人員在統(tǒng)一的智能控制模型下實(shí)現(xiàn)創(chuàng)新帶來了良機(jī)。通過在控制層面對(duì)性能、功能作詳細(xì)分析,利用統(tǒng)一的標(biāo)準(zhǔn)處理器內(nèi)核架構(gòu),設(shè)計(jì)人員不但能夠以極具競(jìng)爭(zhēng)力的價(jià)格獲得最優(yōu)解決方案,還可以通過軟件復(fù)用來降低軟件的開發(fā)成本,大幅縮短設(shè)計(jì)周期。
x86作為行業(yè)的主流處理器,其架構(gòu)的優(yōu)點(diǎn)在于功能強(qiáng)大,而且通用性、兼容性、實(shí)用性強(qiáng),應(yīng)用范圍廣。傳統(tǒng)應(yīng)用領(lǐng)域可以在不影響其核心業(yè)務(wù)的情況下,采用x86+AI加速器的方式獲得智能方向的新探索,從而讓應(yīng)用快速落地。
除此之外,與深鑒科技、寒武紀(jì)科技等國內(nèi)AI創(chuàng)業(yè)公司在細(xì)分行業(yè)領(lǐng)域的垂直深耕不同,兆芯還注重于解決AI服務(wù)端的訓(xùn)練和推理的芯片問題。這個(gè)領(lǐng)域難度高,挑戰(zhàn)大,對(duì)于國家安全和國內(nèi)AI產(chǎn)業(yè)未來的可持續(xù)性發(fā)展具有深遠(yuǎn)的意義。
現(xiàn)階段,服務(wù)端的AI芯片仍被國外完全壟斷,以NVIDIA為首的GPU AI目前占有絕對(duì)的領(lǐng)先地位。Amazon、Google、Microsoft等國外公司也為自己的云服務(wù)平臺(tái)開發(fā)了專屬的ASIC芯片(雖然并不能像NVIDIA兼容龐大的生態(tài),但是具有不錯(cuò)的能耗比)。
好的服務(wù)端芯片,不僅要兼容各類AI框架軟件生態(tài),還需要硬件擁有高能效比、可虛擬化等諸多特點(diǎn)。
兆芯研制的基于GPU框架的可編程AI芯片能很好地滿足服務(wù)端的需求,不僅可以兼容NVIDIA創(chuàng)造的生態(tài)環(huán)境,做到即插即用,其獨(dú)有的壓縮技術(shù)和AI加速器還能讓芯片具有傳統(tǒng)GPU無法達(dá)到的高能效比。
目前AI技術(shù)仍處于起步階段,監(jiān)督學(xué)習(xí)仍是主要的手段。AI的主流分支--深度學(xué)習(xí)技術(shù)也將隨著計(jì)算力的不斷提升,創(chuàng)造出更加智能的落地應(yīng)用。
在兆芯看來,短期內(nèi),AI的發(fā)展趨勢(shì)有如下特點(diǎn):
1. 網(wǎng)絡(luò)的復(fù)雜度和訓(xùn)練集的規(guī)模將會(huì)進(jìn)一步提高,計(jì)算復(fù)雜度將達(dá)到一個(gè)新的高度。
2. 帶label的數(shù)據(jù)將成為AI發(fā)展階段最有價(jià)值的資源。
3. 傳統(tǒng)的AI是在設(shè)計(jì)好的網(wǎng)絡(luò)結(jié)構(gòu)下訓(xùn)練未知參數(shù),而最新的方法利用GAN類似的機(jī)制,可以將網(wǎng)絡(luò)訓(xùn)練成一個(gè)更高精度的全新網(wǎng)絡(luò)框架,而不需要設(shè)計(jì)者參與。這對(duì)于做框架算法的人也帶來了巨大的挑戰(zhàn)--他們?cè)撊绾卧谶@個(gè)重?cái)?shù)據(jù)的AI時(shí)代突破重圍,將AI帶到更高的臺(tái)階。
4. CNN等網(wǎng)絡(luò)的安全性問題,例如pixel攻擊(通過干擾讓目標(biāo)識(shí)別錯(cuò)誤,或者認(rèn)定為指定目標(biāo)),這也對(duì)現(xiàn)有的應(yīng)用安全落地帶來了極大的挑戰(zhàn)。因?yàn)樵谀承?yīng)用中安全性是致命的決定因素,如自動(dòng)駕駛。
5. 另外新興的網(wǎng)絡(luò)如capsule是否有機(jī)會(huì)替代現(xiàn)有CNN網(wǎng)絡(luò),這些對(duì)于不能軟件編程的AI芯片來說也許是致命的。
AI芯片設(shè)計(jì)面臨速度、安全及兼容的挑戰(zhàn)
這些動(dòng)向?qū)φ仔镜奶幚砥髟O(shè)計(jì)和AI芯片設(shè)計(jì)都提出了一系列的挑戰(zhàn)。
處理器技術(shù)決定互聯(lián)、智慧與傳統(tǒng)制造業(yè)的融合度,從而帶動(dòng)產(chǎn)業(yè)鏈上下游企業(yè)競(jìng)相入局。AI對(duì)處理器設(shè)計(jì)提出了更高的要求。如邊緣計(jì)算,AI設(shè)備需要高度集成,低功耗的專用解決方案,因此可以選擇將專用AI模塊集成到SoC內(nèi)部,并對(duì)SoC訪存系統(tǒng)進(jìn)行優(yōu)化,滿足AI模塊的高帶寬需求,同時(shí)可以通過內(nèi)置硬件編解碼器,提升視頻的處理性能。在云端計(jì)算層面,可以選擇支持多PCI-E 3.0接口,連接GPU或AI加速卡,構(gòu)建AI運(yùn)算平臺(tái)。傳統(tǒng)行業(yè)設(shè)計(jì)人員可以復(fù)用部分原始軟件代碼,將智能功能調(diào)用AI完成,從而降低軟件的開發(fā)成本,并大幅縮短新產(chǎn)品設(shè)計(jì)周期。
而在AI芯片設(shè)計(jì)方面,具體挑戰(zhàn)如下:
1. 網(wǎng)絡(luò)復(fù)雜度提高,意味著需要更高的計(jì)算能力。如何在現(xiàn)有的工藝限定下,最大限度地提高有效計(jì)算力(有效計(jì)算力,指的是實(shí)際的處理速度,而不是物理上的計(jì)算單元數(shù)目)。這就要求大家能夠最大限度地解決帶寬、芯片互聯(lián)、功耗、同步等問題,這些是決定芯片效率的關(guān)鍵因素。
2. 由深度學(xué)習(xí)產(chǎn)生的非規(guī)則的網(wǎng)絡(luò)結(jié)構(gòu),雖然效果好,但是復(fù)雜的連接關(guān)系會(huì)令傳統(tǒng)ASIC AI芯片更加難以優(yōu)化加速。
3. 安全性問題是AI最為敏感話題,也是新的網(wǎng)絡(luò)結(jié)構(gòu)的需求,或者說下一代的AI網(wǎng)絡(luò)結(jié)構(gòu)需要解決的問題。
4. 新興網(wǎng)絡(luò),如capsule,雖然解決了CNN網(wǎng)絡(luò)諸多問題,也引出了與現(xiàn)有硬件不太適應(yīng)的問題。如何提好訓(xùn)練效率,如何設(shè)計(jì)硬件讓其在可編程性和高效之間達(dá)到一個(gè)平衡點(diǎn),來滿足不斷演進(jìn)的算法需求,是芯片設(shè)計(jì)商的設(shè)計(jì)原則。
x86+外接AI PCIe加速卡及AI計(jì)算芯片
兆芯是國內(nèi)僅有的同時(shí)掌握中央處理器(CPU)、圖形處理器(GPU)、芯片組(Chipset)三大核心技術(shù)的公司,擁有三大核心芯片及相關(guān)IP的完全自主設(shè)計(jì)研發(fā)能力,全部研發(fā)環(huán)節(jié)透明可控。因此,我們可以利用自身優(yōu)勢(shì),針對(duì)AI應(yīng)用需求,優(yōu)化產(chǎn)品設(shè)計(jì),為客戶提供高效、高性能、低功耗的解決方案。
目前,兆芯產(chǎn)品已經(jīng)廣泛應(yīng)用于臺(tái)式機(jī)、筆記本、一體機(jī)、存儲(chǔ)服務(wù)器、磁盤陣列、工控整機(jī)等多種形態(tài)產(chǎn)品,是國內(nèi)唯一具備無縫替代國外同類產(chǎn)品條件的國產(chǎn)自主可控通用CPU。
面對(duì)AI需求的迅速崛起,我們正在思考如何對(duì)這些產(chǎn)品形態(tài)進(jìn)行智能升級(jí),通過x86+外接AI PCIe加速卡的方式構(gòu)建運(yùn)算平臺(tái)加速應(yīng)用落地。
與此同時(shí),兆芯已經(jīng)利用自己GPU技術(shù)的獨(dú)特優(yōu)勢(shì),設(shè)計(jì)了全新的AI計(jì)算芯片:
1. 基于兆芯GPU的AI硬件加速框架很好的解決了:
2多計(jì)算單元的并行性管理和可擴(kuò)展性問題
2軟件生態(tài)的兼容性問題,支持OpenCL,CUDA等GPGPU API
2. 獨(dú)有專用加速器在能效比和可編程性之間做了很好的折中
3. 新型壓縮技術(shù)大幅降低了芯片的帶寬需求,從而有效的提高了計(jì)算單元和加速器利用率
4. 支持硬件虛擬化
5. 靈活的GPGPU編程,可以適應(yīng)多樣算法變革,全新同步機(jī)制可以高效完成多局部和多芯片同步,較好的適應(yīng)新興的網(wǎng)絡(luò)結(jié)構(gòu)
6. 在解決安全的方向上,如視覺攻擊,兆芯利用自主設(shè)計(jì)的視覺芯片和深度學(xué)習(xí)相結(jié)合的方式大幅度降低了攻擊成功的概率
總之,對(duì)于AI來講,目前仍處于一個(gè)開始的階段,數(shù)據(jù)仍是整個(gè)AI的核心,硬件和軟件架構(gòu)都在不斷的相互變化中,每一次硬件變革都會(huì)帶來軟件變化,軟件變化,工藝變化又會(huì)促進(jìn)硬件的進(jìn)一步改良。對(duì)于兆芯來講,我們一方面會(huì)不斷演進(jìn)加速器設(shè)計(jì),讓其更好的加速主流算法,同時(shí)會(huì)保留足夠通用編程靈活性,給新的算法創(chuàng)造好的并行計(jì)算環(huán)境,也為國內(nèi)AI高端芯片自主可控發(fā)展貢獻(xiàn)力量。
評(píng)論