AI與機器學習發(fā)展迅速,FPGA可提供高能效和靈活性
1 為什么AI/ML發(fā)展如此迅速?
多年來,人工智能(AI)/機器學習(ML)市場一直以指數級的速度快速增長,其解決方案遍布我們周圍,從機器人和其他機械系統(tǒng)的預測故障算法、電子商務中的購買行為建議、自動駕駛車輛的目標檢測、電子交易中的風險緩解到DNA測序等等,我們身邊有各種各樣的解決方案,示例不勝枚舉。
那么,為什么AI/ML發(fā)展如此迅速呢?
據IDC、Gartner和其他市調機構的分析,全球大約80%的數據是非結構化數據。電子郵件、照片、語音郵件、視頻和許多其他數據源每天都在堆積。無論是優(yōu)化行業(yè)或企業(yè)的流程、預測消費者的消費趨勢和興趣、增強金融系統(tǒng)的安全性、維護合規(guī)性等等,這些數據都具有價值。AI/ML不僅在數據清理(從非結構化數據創(chuàng)建結構化數據)方面扮演著重要角色,而且在數據分析方面也發(fā)揮著關鍵作用。
在過去10年中,汽車市場一直在改進自動駕駛車輛,并且中國和美國都進行了現場試驗。中國吉利汽車集團在其駕駛輔助和完整的自動駕駛車輛產品線上投入了大量資金,這些都是由AI/ML支持的。工業(yè)4.0和5.0在很大程度上依賴AI/ML算法來實現其機器人技術和流程自動化。在醫(yī)學領域有許多用例,包括成像、疾病預測、診斷和患者病歷維護等。
1)數據加速市場
當工作負載增加時,早期的數據中心架構依賴于添加更多的服務器。隨著時間的推移,數據中心的計算節(jié)點增加到數千、數萬,甚至在某些情況下增加到十幾萬個,因此占用空間、電力消耗和降溫成為一種負擔。網絡的運營商都在尋找全新的、更高效的方法來處理數據。
數據加速器主要是使用圖形處理器(GPU)實現的,用于處理繁重的數學工作負載。高性能計算(HPC)、基因組學、人工智能(包括訓練和推理)和許多其他用例都利用了這種協同處理數據加速??偟膩碇v,我們現在有專用集成電路(ASIC)、GPU和現場可編程邏輯門陣列(FPGA)解決方案來爭奪這個數據加速市場。隨著我們不斷向邊緣技術發(fā)展,數據加速器的靈活性和最佳的性能效率將成為制勝關鍵技術。
從圖1這個圖表可以看出:中央處理器(CPU)總是擁有最高的靈活性,但需要權衡功耗和成本;當我們在探討用“老派”方法來應對核心數據中心中增加的工作負載時,我們自然就會注意到這一點;這樣剩下可用的解決方案就只有GPU、ASIC和FPGA了。ASIC肯定會提供最高的效率,但是ASIC的功能是固定的,無法提供所需的靈活性,以適應不斷變化的AI算法、新技術的規(guī)格變化、供應商特定的要求和工作負載優(yōu)化。
GPU是核心數據中心的原始主力,僅限于處理純計算用例,在大多數情況下不具備加速網絡和存儲的能力,而且這樣做是以犧牲功耗和成本為代價的。FPGA能夠進行網絡、計算和存儲加速,具有ASIC級的處理速度和所需的靈活性,能夠為當今的核心和邊緣數據中心提供最佳的數據加速。
圖1 AI/ML計算解決方案的對比
2)神經網絡模型與算法
AI/ML有2個主要組成部分,即網絡模型訓練和用于機器學習的推理。就部署和總體收入而言,市場的絕大部分在于機器學習推理。有許多神經網絡模型可以分層來創(chuàng)建各種神經網絡或算法。一些更常見的類型包括卷積神經網絡(CNN)、循環(huán)神經網絡(RNN)、轉置器、圖神經網絡和前饋神經網絡。ResNet、AlexNet和YOLO是眾所周知的CNN,GRU和LSTM是比較常見的RNN,谷歌(Google)的BERT、微軟(Microsoft)的Turing NLG和OpenAI的GPT 3.5是transformer神經網絡的例子。
當神經網絡用于更大的批量處理(Batch size)時,GPU通常表現得更好,并且可以高度并行化處理。FPGA在執(zhí)行順序神經網絡(RNN是一個很好的示例),以及其他更容易并行計算的模型方面具有更高的靈活性。數據加速器的成功將在很大程度上取決于設備的利用率。GPU在順序模型中通常會達不到要求,因為它們通常未得到充分利用。這就像購買一輛蘭博基尼以每小時20公里的速度行駛一樣。
Achronix憑借其完整的FPGA技術組合為機器學習推理應用提供全面解決方案。通過與多個生態(tài)系統(tǒng)合作伙伴合作,最終用戶可以實現基于FPGA的推理解決方案,無論是使用Speedcore將半導體知識產權(IP)集成到他們自己的芯片設計中,還是使用Speedster7t FPGA獨立芯片將FPGA芯片放在他們自己的PCB上,或者使用VectorPath PCIe加速卡進行交鑰匙項目(一站式方案)。
Tom Spencer(Achronix產品營銷高級經理)
2 工程師或研發(fā)人員的挑戰(zhàn)
在許多應用中,AI/ML算法因工作負載的變化或對推理神經網絡層的優(yōu)化而發(fā)生變化。事實證明,FPGA可提供最佳的能效,同時保持這些不同要求所需的靈活性。盡管ASIC具有最高的性能和能效,但它們可能需要花費長達2年的時間來開發(fā)和生產,而且它們不能提供靈活性以適應不同的AI/ML算法。GPU提供了靈活性,但在適應許多不同的算法方面能力有限,而且能效很低。FPGA實現了最快的上市時間,并在平臺的全生命周期內提供靈活性。除了FPGA提供的上市時間優(yōu)勢之外,Achronix還通過提供嵌入式IP、芯片級和板卡級的FPGA技術,比其他業(yè)界領先的FPGA公司更前進了一步。
Achronix是唯一一家能夠同時提供嵌入式FPGA知識產權(業(yè)界通常將其稱為eFPGA)、獨立FPGA芯片和基于該芯片的PCIe加速卡的高性能FPGA獨立硬件供應商(IHV)。Achronix提供了開發(fā)工具套件,其中包括用于配置、布局和布線以及比特流生成的ACE工具,Synopsys Synpilfy Pro的Achronix特定版本,可用于綜合和與仿真工具的互操作。Achronix工具支持在多個流程步驟中使用許多常見的仿真器進行仿真,包括VCS(Synopsys)、QuestaSim(Mentor)、Incisive(Cadence)和Riviera(Aldec)。通過投資Achronix工具套件,用戶能夠開發(fā)多種解決方案,包括使用Speedcore開發(fā)具有嵌入式FPGA功能的大批量定制ASIC或SoC,使用Speedster7t器件開發(fā)專有PCB子系統(tǒng),或簡單地使用基于PCIe的插卡模式,通過采用VectorPath加速卡來實現。
3 Achronix的解決方案
Achronix為AI/ML計算、聯網和存儲應用開發(fā)了基于FPGA的數據加速產品。與其他高性能FPGA公司不同,Achronix可以同時提供FPGA芯片和嵌入式FPGA IP解決方案。除了FPGA器件和eFPGA IP,Achronix還提供加速卡,可用于開發(fā)、現場試驗或批量生產。Speedster7t系列FPGA器件是Achronix最新推出的、采用了臺積電7nm工藝節(jié)點的FPGA芯片。該系列FPGA提供了業(yè)內最高速度的I/O接口,具有400GbE、PCIe Gen 5和雙存儲接口:標準DDR4和GDDR6。與DDR4相比,GDDR6提供了令人印象深刻的600%速度優(yōu)勢。
這些高速接口意味著大量數據可以輕松通過FPGA。Achronix構建了一個二維片上網絡(2D NoC),它實際上是聯通所有外部I/O、FPGA內固化功能塊和FPGA自身具有的邏輯陣列之間的高速公路。這個二維片上網絡具有超過20Tbps的雙向總帶寬,遠遠超過了I/O和功能模塊的總帶寬。這消除了由于芯片內部擁塞帶來的延遲問題。
對于那些對成本和/或功耗非常敏感的用例,通常會開發(fā)ASIC。但是,當您需要前面所討論的靈活性時,您會怎么做呢?無論是算法的新變體、不斷變化的需求、供應商的特定需求、操作人員的特定需求、協議適配還是功能系統(tǒng)模塊的不同接口,都需要一定程度的靈活性。Speedcore eFPGA IP是由ASIC開發(fā)者和Achronix定義的、具有“剛好足夠”靈活性的解決方案。其中LUT、存儲器、DSP/MLP和2D NoC之間所需的資源已經確定,然后Achronix向用戶提供定制IP,以集成到他們的ASIC或SoC設計中。
VectorPath加速卡可用作評估或開發(fā)平臺、現場試驗工具或用于產品批量生產中,還可以創(chuàng)建該解決方案的定制版本以滿足特定的用戶需求。
評論