美國升級芯片出口管制措施 AI時代算力才是硬道理
10月17日,美國商務部工業和安全局(BIS)更新了“先進計算芯片和半導體制造設備出口管制規則”,對2022年10月7日規則的修改和強化。該規則尚處于公示期,將在30天后生效。
本文引用地址:http://www.ex-cimer.com/article/202310/451819.htm新規則將限制英偉達對中國市場芯片銷售,稱更嚴格的控制針對英偉達A800和H800芯片,在25天內審查以確定是否需要許可證才能向中國出售這類芯片。同時,還有13家中國GPU企業被列入實體名單,其中包括摩爾線程、壁仞科技等。
對此,英偉達回應稱不會對其收益產生立即的實質性影響,但可能會對其長期發展造成損害。此前,英偉達在二季度財報電話會議上披露,數據中心方面,中國的銷售額占20-25%。
對于壁仞科技和摩爾線程來說,被列入實體清單意味著如果無法獲得許可,不僅無法進口美國的技術或產品,也無法使用基于美國技術或設備的晶圓廠為其代工芯片。
升級芯片出口管制措施
根據2022年的規定,美國禁止出口超過兩個標準的芯片:一個是功率標準,另一個是“互連帶寬”即芯片之間的通信速度標準。而根據新規,將用“性能密度”(performance density)即每平方毫米的浮點運算次數來取代通信速度,阻止企業尋找變通方案。
例如,英偉達為了不違反美國出口限制規定針對中國市場推出了特供版芯片 —— 限制通信速度的A800/H800(處理速度約為A100/H100的70%),雖然保留了強?的計算能?,但訓練AI大模型的時間將增加。不過即便如此,A800/H800在中國市場仍然被認為是用于AI訓練/推理的最佳數據中心芯片。同樣的還有英特爾針對中國市場推出的特供AI處理器Gaudi2等。
修訂后的出口管制措施將禁止美國企業向中國出售運行速度達到300TFLOPS(即每秒可計算300萬億次運算)及以上的數據中心芯片。如果芯片的性能密度達到或超過每平方毫米370GFLOPS,速度在150-300TFLOPS之間的芯片將被禁止銷售。以上述速度運行但性能密度較低的芯片則屬于“灰色地帶”,這意味著企業必須向美國政府通報對華銷售的情況。
有分析稱,新舉措可能還包括英偉達的旗艦游戲顯卡RTX4090。而最新消息顯示,美國商務部對出口管制政策做出了澄清,該政策針對4090顯卡的禁令是允許消費性應用進行出口豁免的。這意味著4090顯卡仍可以在中國(包括香港和澳門)的消費市場進行零售,但不允許用于商業和生產用途。
新措施為了防止企業通過Chiplet的芯片堆疊技術繞過芯片限制,還將新規擴大到另外40多個國家出口先進的許可要求,以防止A100和H100系列等AI芯片從海外其他地區輾轉出口到中國;另外,對中國以外的21個國家提出了芯片制造設備的許可要求,并擴大了禁止進入這些國家的設備清單,以限制中國14nm以下先進芯片的制造能力。
此次出口管制新規還增加了很多細分領域的物項清單,包括ASIC(應用型專用集成電路)、FPGA(現場可編程邏輯門陣列)、SRAM存算一體芯片、Chiplet、多重曝光技術、NPU(神經網絡處理器)等,這些都在美國的管制范圍內。
如果只限制峰值性能,芯片企業還可以針對中國市場推出性能功耗低的小體積產品,再通過高速連接的方式組成集群,最終實現預期中的集群性能。但芯片性能密度的條款把這條路給堵住了,這次新規將填補之前芯片限制的“漏洞”,將一些原本剛好符合之前技術參數的AI芯片納入限制范圍,同時阻止中國企業通過海外子公司購買美國AI芯片。
在管制芯片企業出口時,美國企業的業績同樣也會受到影響,中國市場長期是美國芯片企業在美國以外的最大市場。2022年,英偉達、英特爾、AMD三家主要數據中心芯片在中國大陸地區(含中國香港)營收占比分別為21.4%、27.2%、22.1%。
值得注意的是,中國臺灣地區的企業,如華碩、技嘉、微星等,大量最終客戶仍在中國大陸地區。如果按照中國大陸地區、中國臺灣地區兩個市場合計統計,英偉達、英特爾、AMD在中國市場的營收占比分別為,47.3%、40.3%、32.1%。
AI時代算力需求指數級增長
自2022年11月底以來,美國初創公司OpenAI發布的人工智能對話聊天機器人ChatGPT迅速走紅,僅用5天注冊用戶數就超過百萬,并在2個月內破億,成為史上增長最快的消費類應用。
以ChatGPT為代表的AI大模型開啟了新一輪生產力革新的科技浪潮,人與機器不再局限于簡單的指令式交互,機器可以理解復雜的意圖,這顛覆過去互聯網發展中的許多業態,也對實體經濟和產業發展產生深遠的影響。因此,GPT被微軟創始人比爾·蓋茨評價為自圖形界面以來最重要的技術進步,被英偉達創始人黃仁勛稱作是人工智能領域的iPhone時刻。
當所有人都沉浸在對超大語言模型那令人驚嘆的“生命力”的時候,AI這個存在了數十年的概念,已然成為未來幾十年人類社會發展的核心變量。而AI的背后是算力、數據、算法的有機結合。
ChatGPT的爆火本質上是人類在AI領域軟件(數據、算法)、硬件(算力)綜合能力大幅提升以后的一次爆發式體現。隨著云計算的廣泛應用,特別是深度學習成為當前AI研究和運用的主流方式,AI對于算力的要求不斷快速提升。
我們在談AI芯片性能的時候,首先想到的一個指標就是算力。算力是算法和數據的基礎設施,支撐著算法和數據,是指計算機系統能夠完成的計算任務量,通常用來描述對數據的處理能力,采用FLOPS(Floating Point Operations Per Second)表示每秒鐘能夠完成的浮點運算或指令數。在AI發展的最初幾十年里,所需的計算能力是按照摩爾定律增長的 —— 大約20個月的時間翻一倍。
1950年代,美國數學家Claude Shannon訓練了一個名為Theseus的機器老鼠,使其能在迷宮中導航并記住路徑,Theseus的構建是基于40FLOPS;2012年,由AlexNet(一個圖像識別AI)標志著深度學習時代的開始,算力翻倍時間大大縮短到了六個月;2015年,AlphaGo的出現帶來了大規模AI模型時代,它的計算需求比以前所有的AI系統都要大。
比于傳統AI算法,大模型在參數規模上得到大幅提升,參數一般達到千億甚至萬億規模。例如OpenAI的GPT系列,最開始的GPT-1擁有1.17億個參數,到GPT-3的參數已經到達1750億個,而相應的能力也得到大幅提升。
AI算法模型對于算力的巨大需求,推動了今天芯片業的發展。據OpenAI測算,2012年開始,全球AI訓練所用的計算量呈現指數增長,平均每3.43個月便會翻一倍,目前計算量已擴大30萬倍,遠超算力增長速度。
一般的說,AI芯片被稱為AI加速器或計算卡,即專門針對AI算法做了特殊加速設計的芯(其他非計算任務仍由CPU負責);而從廣義范疇上講,面向AI計算應用的芯片都可以稱為AI芯片。這讓算力領域的硬件巨頭們再一次走進人們的視線,CPU、GPU、FPGA、ASIC等底層硬件中包含的算力價值將被重塑。
目前GPU是AI算力的主要選擇,因為GPU最初是為了圖形渲染而設計的,而圖形渲染涉及的計算是高度并行化的,這種并行化的特性使GPU非常適合進行機器學習和深度學習這樣的大規模數據并行計算。GPU的并行計算能力可大幅提升計算效率,可大幅縮短AI算法的訓練和推理時間,成為AI時代的算力核心。
并且渲染過程具體來說就是幾何點位置和顏色的計算,這兩者的計算在數學上都是用四維向量和變換矩陣的乘法,所以GPU超過80%部分為運算單元,具有例如張量核心和矩陣乘法等計算單元,相比較下,CPU僅有20%為運算單元。因此GPU可以更快地執行常見的機器學習和深度學習操作:如卷積和矩陣乘法。這些計算單元與通用計算單元相比,具有更高的效率和更快的速度。
在進行深度學習等計算時,還需要大量的內存和高速的內存帶寬來存儲和處理海量數據。GPU相比于其他硬件(如CPU),具有更高的內存帶寬和更大的內存容量,可以更有效地存儲和處理數據,從而提高計算速度。
現階段,隨著例如英偉達A100、H100等型號產品的發布,GPU在算力方面的優勢相較于其他硬件具有較大優勢。GPU的工作也從一開始的圖形處理逐步轉化為計算,在深度學習的訓練階段其性能更是無所匹敵,成為最適合支撐AI訓練和學習的硬件,應用于數據中心加速和部分智能終端領域。
據JPR統計,2023年一季度英偉達GPU市占率達84%,是GPU市場的主導者。英偉達1999年首次提出GPU概念,2006年推出CUDA運算平臺,2023年5月發布超級計算機DGXGH200,其算力規模達到1Eflops,支持萬億參數AI大模型訓練,為巨型人工智能模型提供線性可擴展性。英偉達基于其GPU與CUDA等生態體系的構建,已成為AI算力關鍵供應商。
· 至于CPU,由于GPU無法單獨工作,必須由CPU進行控制調用才能工作。CPU也可單獨作為AI芯片使用,處理復雜的邏輯運算和不同的數據類型,雖然兼容性好但比較浪費,當需要大量的處理類型統一的數據時,可調用GPU進行并行計算。
· 而FPGA具有低能耗、高性能以及可編程等特性,相對于CPU與GPU有明顯的性能或者能耗優勢,但對使用者要求高。通過FPGA可以有效降低研發調試成本,提高市場響應能力,推出差異化產品,科技巨頭紛紛布局云計算+FPGA的平臺。隨著FPGA的開發者生態逐漸豐富,適用的編程語言增加,FPGA運用會更加廣泛。
· ASIC可以更有針對性地進行硬件層次的優化,從而獲得更好的性能、功耗比。但是ASIC芯片的設計和制造需要大量的資金、較長的研發周期和工程周期,而且深度學習算法仍在快速發展,若深度學習算法發生大的變化,FPGA能很快改變架構,適應最新的變化,ASIC類芯片一旦定制則難于進行修改。
· AI芯片還可以用NPU,近年來NPU異軍突起,同樣的芯片面積下,NPU能夠做到幾十倍于GPU的AI性能。英偉達也在近幾代的GPU中塞了不少Tensor Core,但如果使用NPU的話,可以并不完全依賴英偉達的CUDA生態,所以英特爾、AMD乃至中國的很多企業都分了一杯羹。
論性能,華為的NPU在AI性能上已經不遜色于英偉達的產品,目前缺的就是“生態”。只有參與的開發者夠多,生態才能建立,但是轉型都是存在“陣痛的”,意味著大量代碼的重構。
總的來看,目前GPU是市場上用于AI計算最成熟應用最廣泛的通用型芯片,短期將延續AI芯片的領導地位。在算法技術和應用層次尚淺時期,其強大的計算能力、較低的研發成本和通用性將繼續占領AI芯片的主要市場份額。
評論