華為算力最強AI芯片商用:2倍于英偉達V100!開源AI框架,對標TensorFlow和PyTorch
本文經AI新媒體量子位(公眾號 ID: QbitAI)授權轉載,轉載請聯(lián)系出處。
本文引用地址:http://www.ex-cimer.com/article/201908/404121.htm剛剛,華為業(yè)界算力最強的AI芯片正式商用。
并且宣布自研AI框架MindSpore開源,直接對標業(yè)界兩大主流框架——谷歌的Tensor Flow、Facebook的Pytorch。
華為AI芯片昇騰910之前已經發(fā)布,現(xiàn)在正式商用,對標英偉達Tesla V100,主打深度學習的訓練場景,跑分性能2倍于英偉達。
華為輪值董事長徐直軍說,這是華為全棧全場景AI戰(zhàn)略的實踐體現(xiàn),也希望進一步實現(xiàn)華為新愿景:打造“萬物互聯(lián)的智能世界”。
但毫無疑問,華為入局,自研AI計算架構,肯定會進一步影響AI基礎技術和架構格局,特別是美國公司的壟斷。
MindSpore發(fā)布后,華為已經實現(xiàn)了完整的AI生態(tài)鏈,加上此前發(fā)布的ModelArts開發(fā)平臺、Atlas計算平臺,囊括了從芯片、框架、部署平臺到應用產品完整層級。
在當下這個大環(huán)境中,這些動作也具備了自立自強、不受人掣肘的寓寄。
如今現(xiàn)狀,AI領域的關鍵技術,比如算力、框架、算法等等,主要還是由少數(shù)幾家美國公司提供。
比如訓練芯片,主要由英偉達(GPU)、Google提供(TPU);框架則是Google的Tensor Flow、Facebook的Pytorch等成主導;原創(chuàng)AI算法的發(fā)明,也只是在少數(shù)幾個廠商或者研究機構手中。
這直接導致一些企業(yè)想要介入AI的時候,發(fā)現(xiàn)門檻很高,除了需要大量數(shù)據(jù)之外,還需要面臨算力稀缺、硬件昂貴、人才難找等問題。
現(xiàn)在,華為要用實際行動改變這一現(xiàn)狀。
AI領域的“鴻蒙OS”
MindSpore,與其他主流的框架不同,這是一款全場景的AI計算框架,也是一款“操作平臺”。
不僅僅可以用于云計算場景,也能夠應用到終端、邊緣計算場景中。
也不僅僅是一款推理(部署)框架,也可以用來訓練模型。
徐直軍表示,這背后可以實現(xiàn)統(tǒng)一架構,一次訓練,到處部署,可降低部署門檻。
從這個角度來看,MindSpore也可以視為AI領域的“鴻蒙OS”。
此外,這一框架面相的也不僅僅是開發(fā)者,也面向領域專家、數(shù)學家、算法專家等等在AI中角色越來越重要的人群。
徐直軍介紹,MindSpore的界面上也更加友好,在表達AI問題求解的方程式時,更加便利,更易于算法的開放與創(chuàng)新,推動AI應用的普及。
用MindSpore可降低核心代碼量20%,開發(fā)門檻大大降低,效率整體提升50%以上。
通過MindSpore框架自身的技術創(chuàng)新及其與昇騰處理器協(xié)同優(yōu)化,有效克服AI計算的復雜性和算力的多樣性挑戰(zhàn),實現(xiàn)了運行態(tài)的高效,大大提高了計算性能。
除了昇騰處理器,MindSpore同時也支持GPU、CPU等其它處理器。
與此同時,MindSpore也采用新AI編程語言,單機程序可分布式運行,是一個全場景框架。全場景是指MindSpore可以在包括公有云、私有云、各種邊緣計算、物聯(lián)網行業(yè)終端以及消費類終端等環(huán)境上部署。
而且,這一框架將會開源開放,可靈活擴展第三方框架和芯片平臺。
當然,徐直軍說,如果用華為的昇騰系列芯片,效果會更好,可進行全離線模式執(zhí)行運算,充分發(fā)揮神經網絡芯片算力,實現(xiàn)最佳性能搭配。
畢竟,MindSpore作為華為全棧全場景AI解決方案中的核心步驟,是首個Ascend Native開源AI計算框架,會更適合達芬奇架構的AI芯片,尤其是昇騰910。
而且MindSpore針對現(xiàn)在越來越大的訓練模型做了更多的優(yōu)化,用戶無需了解并行運算的細節(jié),只需了解單芯片部署,就可以在計算集群上進行并行計算。
徐直軍表示,MindSpore會在明年第一季度正式開源。
昇騰910正式商用
昇騰910,在2018年10月華為全連接大會期間曝光,采用華為自研的達芬奇架構,號稱“算力最強的AI處理器”,采用7nm工藝制程,最大功耗為350W,實測310W。
此次發(fā)布用于上市商用,直接對標英偉達Tesla V100,主打深度學習的訓練場景,主要客戶面向AI數(shù)據(jù)科學家和工程師。
主要性能數(shù)據(jù)如下:
半精度為(FP 16):256 Tera FLOPS;
整數(shù)精度(INT 8):512 Tera FLOPS,128通道 全高清 視頻解碼器- H.264/265。
在去年全連接大會上,華為就和友商對比了一下,battle的參賽選手包括谷歌TPU v2、谷歌TPU v3、英偉達 V100和華為的昇騰910。
“可以達到256TFLOPS,比英偉達 V100還要高出1倍!”
相同的功耗下,昇騰910的算力是V100的兩倍,訓練速度更快,用戶需要得出訓練產出的時間會更短。在典型案例下,對比V100,昇騰910的計算速度可以提升50%-100%。
在典型的ResNet50 網絡的訓練中,昇騰910與MindSpore配合,與現(xiàn)有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。
而且徐直軍還在會后明確表示:價格還沒定,但肯定不會高!
全球格局下的華為AI進展
2018年10月,在華為全連接大會上,徐直軍公布了華為全棧全場景 AI 戰(zhàn)略計劃,將數(shù)據(jù)獲取、訓練、部署等各個環(huán)節(jié)囊括在自己的框架之內,主要目的是提升效率,讓AI應用開發(fā)更加容易和便捷。
全場景包括:消費終端 (Consumer Device)、公有云 (Public Cloud) 、私有云 (Private Cloud)、邊緣計算 (Edge Computing)、IoT行業(yè)終端 (Industrial IoT Device) 這5大類場景。
重點在于全棧,包含基于達芬奇架構的昇騰系列芯片(Max、Lite、Mini、Tiny、Nano)、高度自動化的算子開發(fā)工具CANN、MindSpore框架和機器學習PaaS (平臺即服務) ModelArts。
隨著昇騰910正式商用以及MindSpore框架正式推出,華為全棧全場景AI解決方案愈發(fā)完善,競爭力也會隨之上升。
而且,華為之AI,也不僅僅是關乎華為本身業(yè)務,也應該從更加宏觀的角度去審視。
當下,AI落地已經成為無可爭議的大趨勢,大方向。
但中美關系日趨緊張的情況下,中國到底如何,也引發(fā)了更多關注。
近日,Nature最新發(fā)表了一篇,名為“Will China lead the world in AI by 2030?”,提出問題的同時,也審視了中國AI發(fā)展的現(xiàn)狀。
文章中援引艾倫人工智能研究所數(shù)據(jù)顯示,在最頂級的10%高引用論文中,中國作者占比在2018年已經達到26.5%,非常接近美國的29%。如果這一趨勢持續(xù)下去,中國將在今年超過美國。
需要場景?數(shù)據(jù)?金錢?人才?等等,這些都不差。
但為什么,卡脖子隱憂,AI領域依然存在。
核心還在于算力(芯片)與基礎技術。
Nature文章就指出,中國在人工智能的核心技術工具方面仍然落后。目前全世界的工業(yè)和學術界廣泛應用的開源AI平臺TensorFlow和Caffe,由美國公司和組織開發(fā)。
框架方面,百度的PaddlePaddle飛槳也不斷突破,雖然發(fā)展勢頭非常好,卻還是顯得勢單力簿。
更關鍵的是,中國在AI硬件方面的落后非常明顯。全球大多數(shù)領先的AI半導體芯片都是由美國公司制造的,如英偉達、英特爾、谷歌和AMD等。
中國工程院院士、西安交通大學人工智能與機器人研究所所長鄭南寧,接受Nature采訪時說:“我們在設計可支持高級AI系統(tǒng)的計算芯片方面也缺乏專業(yè)知識。”
雖然國內也有不少公司在努力,比如阿里、百度、依圖、地平線等等,都涉足了AI芯片領域,但大部分都聚焦在終端SoC和推理上面,用于訓練的大型算力芯片并不多。
鄭南寧預計,中國可能需要5到10年才能達到美國和英國基礎理論和算法的創(chuàng)新水平,但中國會實現(xiàn)這一目標。
來自柏林智庫的政治學者Kristin Shi-Kupfer也表示,基礎理論和技術方面的貢獻,將是中國實現(xiàn)長期AI目標的關鍵所在。
她同時強調,如果沒有在機器學習上沒有真正的突破性進展,那么中國在人工智能領域的增長,將面臨發(fā)展上限。
所以,Nature的問題:中國AI,到2030年能夠領先全球嗎?
今天華為給出一種解法,但一切還只是開始。
你怎么看?
評論