NVIDIA Blackwell平臺發布，賦能計算新時代

作者：時間：2024-03-19來源：EEPW收藏

本文引用地址：http://www.ex-cimer.com/article/202403/456545.htm

● 全新Blackwell GPU、NVLink和可靠性技術賦能萬億參數規模的AI模型

● 全新Tensor Core與TensorRT-LLM編譯器將LLM推理運行成本和能耗降低多達25倍

● 全新加速器助推數據處理、工程模擬、電子設計自動化、計算機輔助藥物設計和量子計算領域實現突破

● 各大云提供商、服務器制造商和頭部AI企業紛紛采用

NVIDIA于近日宣布推出NVIDIA Blackwell平臺以賦能計算新時代。該平臺可使世界各地的機構都能夠在萬億參數的大語言模型（LLM）上構建和運行實時生成式AI，其成本和能耗較上一代產品降低多達25倍。

Blackwell GPU架構搭載六項變革性的加速計算技術，這些技術將助推數據處理、工程模擬、電子設計自動化、計算機輔助藥物設計、量子計算和生成式 AI 等領域實現突破，這些都是NVIDIA眼中的新興行業機遇。

NVIDIA創始人兼首席執行官黃仁勛表示： “三十年來，我們一直深耕加速計算領域，力求實現像深度學習和 AI 這樣的變革性突破。生成式 AI 是我們這個時代的決定性技術，Blackwell GPU 是推動新一輪工業革命的引擎。通過與全球最具活力的企業合作，我們將實現 AI 賦能各行各業的承諾?！?/p>

許多企業都在計劃采用 Blackwell，其中包括亞馬遜云科技、戴爾科技、谷歌、Meta、微軟、OpenAI、Oracle、特斯拉和 xAI。

Alphabet和谷歌首席執行官Sundar Pichai表示： “通過擴展谷歌搜索和Gmail等服務以服務于數十億用戶，我們對于如何管理計算基礎設施有了更加深入的了解。隨著公司業務進入AI平臺轉型期，我們將繼續為自身產品和服務以及云客戶擴大基礎設施投資。我們有幸與NVIDIA建立了長期合作伙伴關系，并期待著將Blackwell GPU的突破性功能帶給我們的云客戶以及包括Google DeepMind在內的谷歌團隊，以加速未來的探索進程?！?/p>

亞馬遜總裁兼首席執行官Andy Jassy表示： “我們與 NVIDIA 的深度合作可以追溯到 13 年前，當時我們在 AWS 上推出了全球首個 GPU 云實例。如今，我們在云端提供了最為廣泛的 GPU 解決方案，以支持全球那些技術上最先進的加速工作負載。正因如此，NVIDIA Blackwell GPU能夠在AWS上運行得如此出色，NVIDIA也選擇與AWS共同開發Project Ceiba，將NVIDIA新一代Grace Blackwell超級芯片與AWS Nitro System的高級虛擬化和超快速的Elastic Fabric Adapter 網絡結合，以用于NVIDIA自身的AI研發。通過AWS與NVIDIA工程師的共同努力，我們將持續創新，使AWS成為每一個想要在云端運行NVIDIA GPU的用戶的最佳選擇?！?/p>

戴爾科技董事會主席兼首席執行官Michael Dell表示： “生成式AI對于創建更智能、更可靠和更高效的系統至關重要。戴爾科技與NVIDIA將攜手塑造未來科技。隨著Blackwell的發布，我們將繼續為用戶提供新一代加速產品和服務，以提供推動跨行業創新所需的工具?！?/p>

谷歌DeepMind聯合創始人兼首席執行官Demis Hassabis表示：“AI 的變革潛力令人難以置信，它將幫助我們解決世界上那些最重要的科學問題。Blackwell突破性的技術性能將提供所需的關鍵算力，從而幫助那些世界上最聰明的大腦繪制新的科學藍圖?！?/p>

Meta公司創始人兼首席執行官Mark Zuckerberg表示： “從我們的大語言模型到內容推薦、廣告和安全系統，AI 已經在賦能一切，而且AI在未來將會日益重要。我們期待通過NVIDIA Blackwell幫助訓練我們的開源Llama模型，打造下一代Meta AI和消費產品?！?/p>

微軟執行董事長兼首席執行官Satya Nadella表示： “我們致力于為客戶提供最先進的基礎設施，以賦能其 AI 工作負載。一直以來，我們致力于為云端優化NVIDIA GPU，通過在我們的全球數據中心采用 GB200 Grace Blackwell 處理器，我們得以在這一進程中再進一步，助力世界各地的組織實現AI落地?！?/p>

OpenAI首席執行官Sam Altman表示： “Blackwell 實現了巨大的性能飛躍，并將加速我們提供尖端模型的能力。我們很高興能繼續與NVIDIA合作，共同提升AI計算?！?/p>

Oracle董事長兼首席技術官Larry Ellison表示： “Oracle與NVIDIA的緊密合作將推動AI、機器學習和數據分析領域實現質和量的突破。為了讓用戶能夠獲取更多具有可操作性的洞察，正需要像Blackwell這樣專為加速計算和生成式AI而打造的、更強大的引擎?！?/p>

特斯拉及xAI首席執行官Elon Musk表示：“當下的AI領域，NVIDIA硬件無可比擬?！?/p>

新架構以紀念David Harold Blackwell命名，他不僅是一位專門研究博弈論和統計學的數學家，也是第一位入選美國國家科學院的黑人學者。這一新架構是繼兩年前推出的NVIDIA Hopper?架構以來的全新架構。

Blackwell的多項創新技術為加速計算和生成式AI提供助力

憑借六項變革性的技術，Blackwell能夠在擁有高達10萬億參數的模型上實現AI訓練和實時LLM推理，這些技術包括：

● 全球最強大的芯片：Blackwell架構GPU具有2080億個晶體管，采用專門定制的雙倍光刻極限尺寸4NP TSMC工藝制造，通過10 TB/s的片間互聯，將GPU裸片連接成一塊統一的GPU。

● 第二代Transformer引擎：得益于全新微張量縮放支持，以及集成于NVIDIA TensorRT?-LLM 和 NeMo Megatron框架中的NVIDIA先進動態范圍管理算法，Blackwell將在新型4位浮點AI推理能力下實現算力和模型大小翻倍。

● 第五代NVLink：為了提升萬億級參數模型和混合專家AI模型的性能，最新一代NVIDIA NVLink^?為每塊GPU提供突破性的1.8TB/s雙向吞吐量，確保多達576塊GPU之間的無縫高速通信，滿足了當今最復雜LLM的需求。

● RAS引擎：采用Blackwell架構的GPU包含一個用于保障可靠性、可用性和可維護性的專用引擎。此外，Blackwell架構還增加了多項芯片級功能，能夠利用AI預防性維護來運行診斷并預測可靠性相關的問題。這將最大程度地延長系統正常運行時間，提高大規模AI部署的彈性，使其能夠連續不間斷運行數周乃至數月，同時降低運營成本。

● 安全AI：先進的機密計算功能可以在不影響性能的情況下保護AI模型和客戶數據，并且支持全新本地接口加密協議，這對于醫療、金融服務等高度重視隱私問題的行業至關重要。

● 解壓縮引擎：專用的解壓縮引擎支持最新格式，通過加速數據庫查詢提供極其強大的數據分析和數據科學性能。未來幾年，每年需要企業花費數百億美元的數據處理將越來越多地由GPU加速。

一個超大規模的超級芯片

NVIDIA GB200 Grace Blackwell超級芯片通過900GB/s超低功耗的片間互聯，將兩個NVIDIA B200 Tensor Core GPU與NVIDIA Grace CPU相連。

為了實現超高的AI性能，搭載GB200的系統可與同在今天發布的NVIDIA Quantum-X800 InfiniBand和Spectrum?-X800以太網平臺連接。這兩個平臺均可提供速度高達800Gb/s的高性能網絡。

GB200是NVIDIA GB200 NVL72的關鍵組件。NVIDIA GB200 NVL72是一套多節點液冷機架級擴展系統，適用于高度計算密集型的工作負載。它將36個Grace Blackwell超級芯片組合在一起，其中包含通過第五代 NVLink 相互連接的72個Blackwell GPU和36個Grace CPU。此外，GB200 NVL72還內置NVIDIA BlueField^?-3數據處理器，可在超大規模AI云中實現云網絡加速、組合式存儲、零信任安全和 GPU 計算彈性。對于LLM 推理工作負載，相較于同樣數量的 NVIDIA H100 Tensor Core GPU，GB200 NVL72最高可提供30倍的性能提升以及多達25倍的成本和能耗降低。

該平臺可作為一個單GPU，具有1.4 exaflops的AI性能和30TB的快速內存，是組成最新一代DGX SuperPOD的基礎模塊。

NVIDIA提供的HGX B200是一個通過NVLink連接8塊B200 GPU的服務器主板，支持基于x86的生成式AI平臺?；贜VIDIA Quantum-2 InfiniBand和Spectrum-X以太網網絡平臺，HGX B200支持高達400Gb/s的網絡速度。

Blackwell的全球合作伙伴網絡

合作伙伴將從今年晚些時候開始供應采用Blackwell架構的產品。

AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure將成為首批提供 Blackwell驅動實例的云服務提供商。同時NVIDIA云合作伙伴計劃的公司Applied Digital、CoreWeave、Crusoe、IBM Cloud和Lambda也將提供上述服務。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle EU Sovereign Cloud、Oracle US, UK, and Australian Government Clouds、Scaleway、新加坡電信、Northern Data Group的Taiga Cloud、Yotta Data Service 的Shakti Cloud和YTL Power International等主權AI云也將提供基于Blackwell架構的云服務和基礎設施。

GB200還將通過NVIDIA DGX? Cloud提供，NVIDIA DGX? Cloud是一個與領先的云服務提供商共同設計的AI平臺，可為企業開發人員提供專門的基礎設施和軟件訪問權限，使他們能夠構建并部署先進的生成式 AI 模型。AWS、Google Cloud和Oracle Cloud Infrastructure計劃在今年晚些時候托管采用NVIDIA Grace Blackwell的新實例。

Cisco、戴爾科技、慧與、聯想和Supermicro預計將提供基于Blackwell產品打造的各種服務器。Aivres、永擎電子、華碩、Eviden、Foxconn、技嘉、Inventec、和碩、QCT、Wistron、緯穎和 ZT Systems 也將提供基于Blackwell的服務器。

此外，越來越多的軟件制造商網絡，包括工程仿真領域的全球領導者Ansys、Cadence和Synopsys，將使用基于Blackwell的處理器來加速其用于設計和仿真電氣、機械和制造系統及零件的軟件。他們的客戶可以更低成本、更高能效地使用生成式AI和加速計算，來加速產品上市。

NVIDIA軟件支持

Blackwell 產品組合由生產級AI端到端操作系統NVIDIA AI Enterprise支持。NVIDIA AI Enterprise中包含同日發布的NVIDIA NIM?推理微服務以及AI框架、程序庫和工具，企業可以部署在由NVIDIA提供加速的云、數據中心及工作站上。了解關于 NVIDIA Blackwell 平臺的更多信息，請觀看GTC主題演講回放并注冊GTC以參加由NVIDIA和行業領導者帶來的會議。本屆GTC將持續舉辦至3月21日。