<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 自適應計算平臺可提供高效 AI 加速

          自適應計算平臺可提供高效 AI 加速

          —— 賽靈思公司戰(zhàn)略市場營銷總監(jiān)Greg Martin
          作者:Greg Martin 時間:2020-10-20 來源:賽靈思公司 收藏

          AI 已經(jīng)開始改變我們生活的方方面面,帶動了顯著的社會進步。從自動駕駛汽車到 AI 輔助醫(yī)療診斷,我們正處于一個真正的變革時代的開端。

          本文引用地址:http://www.ex-cimer.com/article/202010/419405.htm

          但是,有機遇就會有挑戰(zhàn)。AI 推斷作為采用經(jīng)訓練的機器學習算法開展預測的過程,無論是部署在云端、邊緣還是終端,都要求在嚴格的功耗預算下提供優(yōu)異的處理性能。普遍的看法認為,僅憑 CPU 難以滿足這一要求,需要某種形式的計算加速才能更高效地處理 AI 推斷工作負載。

          與此同時,AI 算法正在快速演進發(fā)展,且速度快于傳統(tǒng)芯片開發(fā)周期的速度。如果使用 ASIC 等固定功能的芯片實現(xiàn) AI 網(wǎng)絡,則可能因先進 AI 模型的高速創(chuàng)新而迅速過時。

           

          整體應用加速

          此外還有第三個挑戰(zhàn),而這也是較少為人所知的一個,其出現(xiàn)的原因在于 AI 推斷無法單獨部署。真正的 AI 部署通常需要非 AI 處理,無論是在 AI 功能之前還是之后。例如,圖像可能需要完成解壓縮和縮放后才能符合 AI 模型的數(shù)據(jù)輸入要求。這些傳統(tǒng)的處理功能必須運行在與 AI 功能相同的吞吐量下,同樣需要實現(xiàn)高性能與低功耗。與 AI 推斷實現(xiàn)方案類似,非 AI 的預處理和后處理功能開始需要某種形式的加速。

           

          圖片.png

           

          要構建真實應用,就需要高效地實現(xiàn)整體應用。在數(shù)據(jù)中心應用中,應用可能擁有數(shù)千個乃至數(shù)百萬個并行實例。如果每個實例都能降低一定程度的功耗,總功耗將實現(xiàn)顯著下降。

          只有當整體應用能夠通過加速滿足性能目標,同時又能通過提高效率滿足功耗要求時,解決方案才具備可行性。那么,我們該如何通過可行方式實現(xiàn)整體應用加速呢?

          這里有三個關鍵因素:能夠構建定制數(shù)據(jù)路徑;使用單器件實現(xiàn)方案;能夠充分發(fā)揮最先進的 AI 模型的優(yōu)勢并隨之實現(xiàn)快速演進發(fā)展和改善。下面分別具體介紹這三個環(huán)節(jié)。

           

          能夠構建定制數(shù)據(jù)路徑

          大多數(shù)形式的 AI 推斷是在流數(shù)據(jù)上運行的。數(shù)據(jù)通常處于運動狀態(tài),如視頻的一部分、正在處理的醫(yī)療影像或是正在分析的網(wǎng)絡流量。即使將數(shù)據(jù)存儲在磁盤上,也要從磁盤上讀取數(shù)據(jù),然后通過“AI 應用”進行傳輸。定制數(shù)據(jù)路徑為處理這類數(shù)據(jù)流提供了最高效的方法。定制數(shù)據(jù)路徑讓應用擺脫了傳統(tǒng)的馮·諾依曼 CPU 架構的限制。在這種架構中,數(shù)據(jù)以小批量從存儲器讀出,經(jīng)過處理再寫回處理器。相反,定制數(shù)據(jù)路徑將數(shù)據(jù)從一個處理引擎?zhèn)鬟f給下一個處理引擎,不僅時延低,而且性能水平合理。過低的處理性能無法滿足這種應用的要求。過高的處理性能則會降低效率,因存在閑置功能而浪費功耗或物理空間。定制數(shù)據(jù)路徑提供了絕佳平衡,為應用提供量身定制的實現(xiàn)方案。

           

          單器件實現(xiàn)方案

          一些解決方案非常適合 AI 推斷,但并不適合整體應用處理。GPU 等固定架構器件普遍不適合這類用途。GPU 往往能提供很高的 TOP(每秒太次運算,一種常見的性能指標),但是 AI 推斷性能通常需要與預處理性能和后處理性能匹配。如果非 AI 組件不能高效地在同一個 GPU 上實現(xiàn),就需要多器件解決方案。由于需要在器件間傳遞數(shù)據(jù),會浪費功耗,因此從功耗的角度來看極為低效和高成本。因此,一個能夠高效實現(xiàn)整體應用的單器件在實際 AI 推斷部署中擁有顯著優(yōu)勢。 

           

          靈活適應最新的 AI 模型并隨之演進

          AI 的創(chuàng)新速度令人驚嘆。如今被視為先進的技術,很容易在半年后就宣告過時。使用較老模型的應用有喪失競爭力的風險,所以,能夠快速實現(xiàn)最先進的模型就極為關鍵。

          那么,什么樣的技術既允許 AI 模型動態(tài)更新,又能提供構建定制數(shù)據(jù)路徑的能力,從而在單個器件中加速 AI 和非 AI 處理呢?答案是——平臺。

           

          平臺

          平臺構建在能在制造后動態(tài)重配置的硬件上。這包括 FPGA 等經(jīng)過長期檢驗的技術,以及賽靈思 AI 引擎等最近的創(chuàng)新。賽靈思 Versal? 自適應計算加速平臺等單器件平臺便于構建定制數(shù)據(jù)路徑,為 AI 處理和非 AI 處理功能提速。此外,因為硬件可以快速重配置,所以它們也能快速高效地實現(xiàn)最新 AI 模型。自適應計算器件結合了兩方面的優(yōu)勢。它們既具備定制 ASIC 的效率優(yōu)勢,又避免了漫長高成本的設計周期。   

           

          圖片.png

           

          賽靈思 Versal AI Core 系列 VC1902

           

          最優(yōu)秀的 AI 應用實現(xiàn)方案未必是速度最快的。它需要的是在效率最高的同時保持靈活性。它必須是量身定制的,能夠按需交付性能,不多不少。 

           

          總結

          隨著 AI 推斷的應用日益普及,問題不僅在于如何部署 AI 模型,也在于如何最高效地部署整體 AI 應用。在應用被復制數(shù)千次乃至數(shù)百萬次時,每個實例的少許節(jié)能也許能省下整個發(fā)電站所需的能源。如果將這種節(jié)省擴展到正在開發(fā)的不計其數(shù)的新 AI 應用中,效果將十分明顯。毫無疑問,整體 AI 應用的高效加速應成為技術行業(yè)所有從業(yè)者的目標,而自適應計算平臺提供了極富競爭力的解決方案。



          關鍵詞: 自適應計算 AI 加速

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();