Arm Neoverse 新動態助推基礎設施AI應用表現
隨著人工智能 (AI) 滲透到教育、就業、制造、醫療和交通等領域,AI 正在改變經濟發展和Arm的日常生活,Arm 構建了全球應用最為普及的 CPU 架構,在多個領域的技術革新中發揮主導作用,影響了世界各地人們的日常生活。AI技術的光明前景讓算力資源開始逐漸向AI應用需求傾斜,甚至在最近一兩年新配置的算力基礎設施中如果沒有更好的AI應用支持,可能會很快被市場所淘汰。Arm 高級副總裁兼基礎設施事業部總經理 Mohamed Awad直言,Arm 是這一切變革的基石。
眾多國際知名的大型科技企業正基于 Arm 平臺構建新一代系統和基礎設施。談到Arm 為何能在基礎設施領域收獲累累碩果?Mohamed Awad總結了三大原因:首先是卓越性能,Arm的工程團隊堅持不懈地實現迭代提升;其次是靈活性,Arm賦能技術合作伙伴定制芯片,以支持其專用的工作負載和系統,而非采用一體適用的方案;最后是生態系統,Arm在軟件、 IP 和芯片生態系統中提供出色性能和靈活性,從而降低配置的總成本并加速產品上市。Arm獨特的定位,皆因結合這些優勢,幫助合作伙伴隨時隨地以任何方式進行部署。Arm Neoverse 計算子系統 (CSS) 將這些優勢演繹得淋漓盡致。而Arm 全面設計 (Arm Total Design) 生態項目便是以此為基礎,提供了一個生態系統,參與其中的合作伙伴均致力于無縫交付基于 CSS 的定制芯片。
針對這樣的市場需求,Arm近期推出的兩款全新 Neoverse CSS 產品均基于全新的第三代 Neoverse IP 構建,通過全新的平臺和計算子系統,Arm擴展了 N 系列的CSS產品路線圖,推出Neoverse CSS N3,使每瓦性能更上一層樓。與此同時,Arm也針對性能優先的 V 系列平臺推出新一代產品,并首次將計算子系統引入該產品線,推出Neoverse CSS V3。憑借新的 CSS N3 和 CSS V3,Arm專注于釋放芯粒(Chiplet)等新技術的潛力,并更大限度地優化實際工作負載的總體擁有成本 (TCO),這對于整個生態系統至關重要,其中包括 AI、數據庫、網絡等。
談到新推出的Neoverse CSS N3,Arm 基礎設施事業部產品解決方案副總裁 Dermot O’Driscoll突出強調的就是能效。CSS N3 與 CSS N2 相比,其每核心的每瓦性能提升 20%。Arm對 CSS N3 進行了調優,以填補Arm發現的市場空缺,提供滿足基礎設施性能要求的高效計算。
CSS N3 的首個實例可提供 32 核,熱設計功耗 (TDP) 低至 40W。其可擴展性非常強,可覆蓋電信、網絡和 DPU 等一系列應用。Arm也同時考慮橫向擴展云配置。CSS N3 基于新的 Neoverse N3 IP 平臺打造,為新的 N 系列產品引入了 Armv9.2 功能,能為每個核心提供 2MB 的專用 L2 緩存,并支持最新的 PCIe 和 CXL I/O 標準以及 UCIe 芯粒標準。
有些客戶希望在保有 CSS 所有優勢的同時,實現更高的性能。因此,Arm還將 CSS 項目擴展到V 系列核心,推出了 Neoverse CSS V3。與 CSS N2 產品相比,CSS V3 的單芯片性能提高了 50%。CSS V3 在單芯片上最多可擴展至 128 核,并支持最新的高速內存和 I/O 標準。CSS V3 基于Arm新的 Neoverse V3 核心打造,是 Arm 目前單線程性能最高的 Neoverse 核心。V3 為 Arm 機密計算架構 (CCA) 提供硬件支持。V3 和 N3 核心均可提供業界領先的專用 L2 緩存大小,顯著改善性能表現。
談到新 CPU 核心的性能提升,Dermot O’Driscoll展示了新產品全方位的表現提升,從視頻處理到 SQL 數據庫的性能均有所躍進。如今,人們常常忽視的一點是,有多少計算周期最終被用于壓縮和協議轉換等后臺任務。N 系列在壓縮方面取得了性能優勢,可降低云服務運營商的成本,并最終降低云服務客戶的成本。同樣地,V 系列顯著提高了協議緩沖區的性能,這是在數據中心內傳輸數據的一項關鍵功能。
AI是基礎設施不可避免的話題,Dermot O’Driscoll認為,2023年有關 AI 的討論焦點主要集中在生成式 AI 和大語言模型 (LLM) 上。目前行業重點更多放在訓練 LLM 上,但隨著生成式 AI 廣泛應用于實際業務場景,其工作重點將轉向推理。有些分析師估計,已部署的 AI 服務器中有高達 80% 專用于推理,且這一數字還將持續攀升。這一轉變意味著要找到合適的模型和模型配置,并加以訓練,然后將其部署到更具成本效益的計算基礎設施上。吞吐量是其中一部分考慮因素,而在當今廣泛部署的基于 Arm 架構的芯片上,Token 生成吞吐量表現相當優異。但還有許多其他因素需要納入考量。CPU 廣泛可用,并可靈活用于 ML 或其他工作負載,此外,CPU 還易于部署,并可支持各種軟件框架,具備低成本和高能效等優勢。因此,CPU 推理將是生成式 AI 計算應用的關鍵組成。Arm可以看到,這些工作負載已從 ML 專用的 Neoverse 功能(如 Bfloat16、MatMul、SVE 和 SVE2),以及Arm的微架構優化中受益,而且這一趨勢還將繼續。
但顯然,并非所有 AI 處理都將在 CPU 上進行。打造 AI 加速器的公司非常多。據最近統計,這一領域的公司已接近 80 家。每家公司都想取得 NVIDIA 那樣的成績,而 NVIDIA 不僅利用其領先的 Hopper GPU,同時也使用了基于 Neoverse V2 平臺的緊耦合計算芯粒 Grace。NVIDIA Grace Hopper 的一大關鍵創新在于內存容量和共享內存模式。這種緊耦合的 CPU 加上加速器配置,對大參數 LLM 非常有益,對檢索-增強-生成 (RAG) 等新興方法也很有幫助。Neoverse CSS 是專為幫助客戶在基于Arm領先的 CPU 平臺上,快速打造通用計算芯粒而推出的產品。它能提供客戶所需的所有接口,以便選擇耦合自身的加速器。這種方法既可以在需要 CPU 時提供 CPU,又可以在需要 AI 加速器時提供 AI 加速器,做到兩全其美。
越來越多的 AI 工作負載被采用,并貫穿于整個計算流程,涵蓋從大型數據中心到網絡、服務器以及計算基礎設施的方方面面。Arm 此次推出的Neoverse V3 和 N3 可以提供支撐這一轉型所需的計算性能和效率,而在 Arm 全面設計生態項目的支持下,Arm的計算子系統能夠加速產品上市時間,并加大對創新的投資力度。Neoverse 只是 Arm 為各個行業市場提供經 AI 優化的計算平臺的一個例子。Arm 的獨特之處在于其背靠龐大的生態系統,始終堅定不移地推動技術創新,為合作伙伴賦予了靈活的創新空間,為未來計算及 AI 起到基石作用。
評論