英偉達(dá)CEO黃仁勛COMPUTEX 2024大會(huì)演講
英偉達(dá) CEO 黃仁勛在臺(tái)北 ComputeX 2024 大會(huì)上展示了英偉達(dá)在加速計(jì)算和生成式AI領(lǐng)域的最新成果,還描繪了未來計(jì)算和機(jī)器人(10.190, 0.00, 0.00%)技術(shù)的發(fā)展藍(lán)圖。
本文引用地址:http://www.ex-cimer.com/article/202406/459553.htm這場(chǎng)演講涵蓋了從 AI 基礎(chǔ)技術(shù)到未來機(jī)器人和生成式 AI 在各個(gè)行業(yè)的應(yīng)用,全面展示了英偉達(dá)在推動(dòng)計(jì)算技術(shù)變革方面的卓越成就。
黃仁勛表示,英偉達(dá)位于計(jì)算機(jī)圖形、模擬和 AI 的交匯處,這是英偉達(dá)的靈魂。今天展示給我們的一切都是模擬的,它是數(shù)學(xué)、科學(xué)、計(jì)算機(jī)科學(xué)、令人驚嘆的計(jì)算機(jī)架構(gòu)的結(jié)合。這些都不是動(dòng)畫,而是自制的,英偉達(dá)把它全部融入了 Omniverse 虛擬世界。
▍加速計(jì)算與 AI
黃仁勛表示,我們所看到的一切的基礎(chǔ)是兩項(xiàng)基本技術(shù),加速計(jì)算和在 Omniverse 內(nèi)部運(yùn)行的AI,這兩股計(jì)算的基本力量,將重新塑造計(jì)算機(jī)行業(yè)。計(jì)算機(jī)行業(yè)已有 60 年的歷史。在很多方面,今天所做的一切都是在 1964 年黃仁勛出生后一年發(fā)明的。
IBM System 360 引入了中央處理單元、通用計(jì)算、通過操作系統(tǒng)實(shí)現(xiàn)硬件和軟件的分離、多任務(wù)處理、IO子系統(tǒng)、DMA以及今天使用的各種技術(shù)。架構(gòu)兼容性、向后兼容性、系列兼容性,所有今天對(duì)計(jì)算機(jī)了解的東西,大部分在1964 年就已經(jīng)描述出來了。當(dāng)然,PC 革命使計(jì)算民主化,把它放在了每個(gè)人的手中和家中。
2007 年,iPhone 引入了移動(dòng)計(jì)算,把計(jì)算機(jī)放進(jìn)了我們的口袋。從那時(shí)起,一切都在連接并隨時(shí)運(yùn)行通過移動(dòng)云。這 60 年來,我們只見證了兩三次,確實(shí)不多,其實(shí)就兩三次,主要的技術(shù)變革,計(jì)算的兩三次構(gòu)造轉(zhuǎn)變,而我們即將再次見證這一切的發(fā)生。
有兩件基本的事情正在發(fā)生。首先是處理器,即計(jì)算機(jī)行業(yè)運(yùn)行的引擎,中央處理單元的性能提升顯著放緩。然而,我們需要進(jìn)行的計(jì)算量仍然在迅速增長(zhǎng),呈指數(shù)級(jí)增長(zhǎng)。如果處理需求,數(shù)據(jù)需要處理的量繼續(xù)指數(shù)級(jí)增長(zhǎng)但性能沒有,計(jì)算通貨膨脹將會(huì)發(fā)生。事實(shí)上,現(xiàn)在就看到了這一點(diǎn)。全球數(shù)據(jù)中心使用的電力量正在大幅增長(zhǎng)。計(jì)算成本也在增長(zhǎng)。我們正在經(jīng)歷計(jì)算通貨膨脹。
當(dāng)然,這種情況不能繼續(xù)下去。數(shù)據(jù)量將繼續(xù)以指數(shù)級(jí)增長(zhǎng),而 CPU 性能提升將永遠(yuǎn)不會(huì)恢復(fù)。我們有更好的方法。近二十年來,英偉達(dá)一直在研究加速計(jì)算。CUDA 增強(qiáng)了 CPU,卸載并加速了專用處理器可以更好完成的工作。事實(shí)上,性能非常出色,現(xiàn)在很明顯,隨著 CPU 性能提升放緩并最終顯著停止,應(yīng)該加速一切。
黃仁勛預(yù)測(cè),所有需要大量處理的應(yīng)用程序都會(huì)被加速,當(dāng)然每個(gè)數(shù)據(jù)中心在不久的將來都會(huì)被加速。現(xiàn)在加速計(jì)算是非常合理的。如果你看看一個(gè)應(yīng)用程序,這里100t 代表 100 單位時(shí)間,它可能是100秒,也可能是 100 小時(shí)。在很多情況下,如你所知,現(xiàn)在正在研究運(yùn)行 100 天的 AI 應(yīng)用程序。
1T 代碼是指需要順序處理的代碼,其中單線程CPU是非常關(guān)鍵的。操作系統(tǒng)控制邏輯非常重要,需要一條指令接著一條指令地執(zhí)行。然而,有很多算法,比如計(jì)算機(jī)圖形處理,可以完全并行操作。計(jì)算機(jī)圖形處理、圖像處理、物理模擬、組合優(yōu)化、圖處理、數(shù)據(jù)庫處理,當(dāng)然還有深度學(xué)習(xí)中非常著名的線性代數(shù),這些算法都非常適合通過并行處理來加速。
因此,發(fā)明了一種架構(gòu),通過在 CPU 上添加 GPU 來實(shí)現(xiàn)。專用處理器可以將耗時(shí)很長(zhǎng)的任務(wù)加速到極快的速度。因?yàn)檫@兩個(gè)處理器可以并肩工作,它們都是自主的,獨(dú)立的,可以將原本需要 100 個(gè)時(shí)間單位的任務(wù)加速到 1 個(gè)時(shí)間單位,速度的提升是難以置信的,效果非常顯著,速度提升了 100 倍,但功耗只增加了大約三倍,成本只增加了約 50%。在 PC 行業(yè)一直這樣做,英偉達(dá)在1000 美元 PC 上加一個(gè) 500 美元 GeForce GPU,性能會(huì)大幅提升。英偉達(dá)在數(shù)據(jù)中心也這樣做,一個(gè)價(jià)值十億美元的數(shù)據(jù)中心,加上 5 億美元的GPU,突然間它就變成了一個(gè) AI 工廠,這種情況正在全球各地發(fā)生。
節(jié)省的成本非常驚人。每花一美元就能獲得 60 倍的性能提升,速度提升了 100倍,而功耗只增加了三倍,成本只增加了 1.5倍。這種節(jié)省是難以置信的。節(jié)省的成本可以用美元來衡量。
很明顯,許多公司在云端處理數(shù)據(jù)上花費(fèi)了數(shù)億美元。如果這些過程被加速,不難想象可以節(jié)省數(shù)億美元。這是因?yàn)樵谕ㄓ糜?jì)算上已經(jīng)經(jīng)歷了很長(zhǎng)時(shí)間的通貨膨脹。
現(xiàn)在終于決定加速計(jì)算,有大量被捕獲的損失可以現(xiàn)在回收,許多被保留的浪費(fèi)可以從系統(tǒng)中釋放出來。這將轉(zhuǎn)化為金錢的節(jié)省和能源的節(jié)省,這也是為什么黃仁勛常說‘買得越多,省得越多’。
黃仁勛還表示,加速計(jì)算確實(shí)帶來了非凡的成果,但它并不容易。為什么它能省這么多錢,但這么長(zhǎng)時(shí)間以來人們卻沒有這樣做呢?原因是因?yàn)檫@非常難。沒有一種軟件可以通過C編譯器運(yùn)行,突然間應(yīng)用程序就快了100倍。這甚至不合邏輯。如果可以做到這一點(diǎn),他們?cè)缇透脑?CPU了。
事實(shí)上,必須重寫軟件,這是最難的部分。軟件必須完全重寫,以便能夠重新表達(dá)在 CPU 上編寫的算法,使其能夠被加速、卸載并行運(yùn)行。這種計(jì)算機(jī)科學(xué)的練習(xí)極其困難。
黃仁勛表示,在過去 20 年里,英偉達(dá)讓全世界變得更容易。當(dāng)然,非常著名 cuDNN,即處理神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)庫。英偉達(dá)有一個(gè) AI 物理庫,可以用于流體動(dòng)力學(xué)和許多其他應(yīng)用中,神經(jīng)網(wǎng)絡(luò)必須遵守物理定律。英偉達(dá)有一個(gè)叫 Arial Ran 新的偉大庫,它是一個(gè) CUDA 加速 5G 無線電,能夠像定義世界網(wǎng)絡(luò)互聯(lián)網(wǎng)一樣定義和加速電信網(wǎng)絡(luò)。加速的能力使我們能夠?qū)⑺械碾娦呸D(zhuǎn)變?yōu)榕c云計(jì)算平臺(tái)相同類型的平臺(tái)。
cuLITHO 是一個(gè)計(jì)算光刻平臺(tái),能夠處理芯片制造中最計(jì)算密集的部分——制作掩膜。臺(tái)積電正在使用 cuLITHO 進(jìn)行生產(chǎn),節(jié)省了大量的能源和金錢。臺(tái)積電的目標(biāo)是加速他們的堆棧,以便為進(jìn)一步的算法和更深入、更窄的晶體管的計(jì)算做好準(zhǔn)備。Parabricks 是英偉達(dá)基因測(cè)序庫,它是世界上吞吐量最高的基因測(cè)序庫。cuOpt是一個(gè)用于組合優(yōu)化、路線規(guī)劃優(yōu)化的令人難以置信的庫,用于解決旅行商問題,非常復(fù)雜。
科學(xué)家們普遍認(rèn)為需要量子計(jì)算機(jī)來解決這個(gè)問題。英偉達(dá)創(chuàng)造了一個(gè)在加速計(jì)算上運(yùn)行的算法,運(yùn)行速度極快,創(chuàng)下了23項(xiàng)世界紀(jì)錄。cuQuantum是一個(gè)量子計(jì)算機(jī)的模擬系統(tǒng)。如果你想設(shè)計(jì)一個(gè)量子計(jì)算機(jī),你需要一個(gè)模擬器。如果你想設(shè)計(jì)量子算法,你需要一個(gè)量子模擬器。如果量子計(jì)算機(jī)不存在,你如何設(shè)計(jì)這些量子計(jì)算機(jī),創(chuàng)建這些量子算法呢?你使用今天世界上最快的計(jì)算機(jī),當(dāng)然就是NVIDIA CUDA。在上面,英偉達(dá)有一個(gè)模擬器,可以模擬量子計(jì)算機(jī)。它被全世界數(shù)十萬研究人員使用,并集成到所有領(lǐng)先的量子計(jì)算框架中,廣泛用于科學(xué)超級(jí)計(jì)算中心。
cuDF是一個(gè)令人難以置信的數(shù)據(jù)處理庫。數(shù)據(jù)處理消耗了今天云端支出的絕大部分,所有這些都應(yīng)該被加速。cuDF加速了世界上使用的主要庫,比如Spark,許多公司可能都在使用Spark,Pandas,一個(gè)新的叫做Polars的庫,當(dāng)然還有NetworkX,一個(gè)圖處理數(shù)據(jù)庫庫。這些只是一些例子,還有很多其他的。
黃仁勛表示,英偉達(dá)必須創(chuàng)建這些庫,以便讓生態(tài)系統(tǒng)能夠利用加速計(jì)算。如果英偉達(dá)沒有創(chuàng)建cuDNN,光有 CUDA 是不可能讓全世界的深度學(xué)習(xí)科學(xué)家使用的,因?yàn)?CUDA、TensorFlow 和 PyTorch中使用的算法之間的距離太遠(yuǎn)了。這幾乎像是在沒有OpenGL 情況下做計(jì)算機(jī)圖形處理,或者沒有 SQL 的情況下進(jìn)行數(shù)據(jù)處理。這些特定領(lǐng)域的庫是英偉達(dá)的珍寶,總共有350個(gè)庫。正是這些庫使英偉達(dá)能夠打開如此多的市場(chǎng)。
上周,Google 宣布在云端加速 Pandas,這是世界上最流行的數(shù)據(jù)科學(xué)庫。你們中的許多人可能已經(jīng)在使用Pandas,它被全球 1000 萬數(shù)據(jù)科學(xué)家使用,每月下載1.7 億次。它是數(shù)據(jù)科學(xué)家的電子表格?,F(xiàn)在,只需點(diǎn)擊一下,你就可以在 Google 云數(shù)據(jù)中心平臺(tái) Colab 中使用由 cuDF 加速 Pandas,加速效果真的非常驚人。
當(dāng)你將數(shù)據(jù)處理加速到如此快的速度時(shí),演示確實(shí)不會(huì)花很長(zhǎng)時(shí)間?,F(xiàn)在 CUDA 已經(jīng)達(dá)到了人們所說的臨界點(diǎn),但它甚至更好。CUDA 現(xiàn)在已經(jīng)實(shí)現(xiàn)了一個(gè)良性循環(huán)。
這種情況很少發(fā)生。如果你看看歷史上所有計(jì)算架構(gòu)的平臺(tái)。以微處理器 CPU 為例,它已經(jīng)存在了 60 年,并且在這個(gè)層面上沒有發(fā)生變化。這種計(jì)算方式,加速計(jì)算已經(jīng)存在,創(chuàng)建一個(gè)新平臺(tái)極其困難,因?yàn)檫@是一個(gè)先有雞還是先有蛋的問題。
如果沒有開發(fā)人員使用你的平臺(tái),那么當(dāng)然也就不會(huì)有用戶。但是如果沒有用戶,就沒有安裝基礎(chǔ)。如果沒有安裝基礎(chǔ),開發(fā)人員就不會(huì)對(duì)它感興趣。開發(fā)人員希望為大型安裝基礎(chǔ)編寫軟件,但大型安裝基礎(chǔ)需要大量應(yīng)用程序來吸引用戶創(chuàng)建安裝基礎(chǔ)。
這種先有雞還是先有蛋的問題很少被打破。而英偉達(dá)花了 20 年的時(shí)間,一個(gè)領(lǐng)域的庫接著一個(gè)領(lǐng)域的庫,一個(gè)加速庫接著一個(gè)加速庫,現(xiàn)在有 500 萬開發(fā)人員在全球范圍內(nèi)使用英偉達(dá)的平臺(tái)。
英偉達(dá)服務(wù)于每一個(gè)行業(yè),從醫(yī)療保健、金融服務(wù)、計(jì)算機(jī)行業(yè)、汽車行業(yè),幾乎所有主要行業(yè),幾乎所有科學(xué)領(lǐng)域,因?yàn)橛ミ_(dá)的架構(gòu)有這么多客戶,OEM 廠商和云服務(wù)提供商對(duì)構(gòu)建英偉達(dá)的系統(tǒng)感興趣。像臺(tái)灣這里的系統(tǒng)制造商這樣的優(yōu)秀系統(tǒng)制造商對(duì)構(gòu)建英偉達(dá)的系統(tǒng)感興趣,這使得市場(chǎng)上有更多的系統(tǒng)可供選擇,這當(dāng)然為我們創(chuàng)造了更大的機(jī)會(huì),使我們能夠擴(kuò)大規(guī)模,研發(fā)規(guī)模,從而進(jìn)一步加速應(yīng)用。
每次加速應(yīng)用,計(jì)算成本就會(huì)下降。100 倍加速轉(zhuǎn)化為 97%、96%、98% 節(jié)省。因此,當(dāng)我們從 100 倍加速到 200 倍加速,再到 1000 倍加速時(shí),計(jì)算的邊際成本繼續(xù)下降。
英偉達(dá)相信,通過大幅降低計(jì)算成本,市場(chǎng)、開發(fā)人員、科學(xué)家、發(fā)明家將繼續(xù)發(fā)現(xiàn)越來越多的算法,這些算法消耗越來越多的計(jì)算資源,最終會(huì)發(fā)生質(zhì)的飛躍,計(jì)算的邊際成本如此之低,以至于一種新的計(jì)算使用方式出現(xiàn)了。
事實(shí)上,這正是現(xiàn)在看到的情況。多年來,英偉達(dá)在過去 10 年里將某種特定算法的邊際計(jì)算成本降低了百萬倍。因此,現(xiàn)在訓(xùn)練包含整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)的 LLM 是非常合理和常識(shí)的,沒有人會(huì)懷疑。這個(gè)想法,即你可以創(chuàng)建一個(gè)能夠處理如此多數(shù)據(jù)的計(jì)算機(jī)來編寫自己的軟件。AI 的出現(xiàn)是因?yàn)橥耆嘈?,如果讓?jì)算變得越來越便宜,總會(huì)有人找到一個(gè)偉大的用途。
如今,CUDA 已經(jīng)實(shí)現(xiàn)了良性循環(huán)。安裝基礎(chǔ)在增長(zhǎng),計(jì)算成本在下降,這導(dǎo)致更多的開發(fā)人員提出更多的想法,從而推動(dòng)更多的需求?,F(xiàn)在我們正處在一個(gè)非常重要的起點(diǎn)。
黃仁勛接著提到了地球2的想法,將創(chuàng)建地球的數(shù)字孿生體,通過模擬地球,可以更好地預(yù)測(cè)未來,從而更好地避免災(zāi)害,更好地理解氣候變化的影響,以便更好地適應(yīng)。
研究人員在 2012 年發(fā)現(xiàn)了 CUDA,那是英偉達(dá)與 AI 第一次接觸,這是一個(gè)非常重要的日子。有幸與科學(xué)家合作,使深度學(xué)習(xí)成為可能。
AlexNet 取得了巨大的計(jì)算機(jī)視覺突破。但更重要的是,退一步理解深度學(xué)習(xí)的背景、基礎(chǔ)以及其長(zhǎng)期影響和潛力。英偉達(dá)意識(shí)到這項(xiàng)技術(shù)具有巨大的擴(kuò)展?jié)摿ΑR环N幾十年前發(fā)明和發(fā)現(xiàn)的算法,突然之間,因?yàn)楦嗟臄?shù)據(jù)、更大的網(wǎng)絡(luò)以及非常重要的更多計(jì)算資源,深度學(xué)習(xí)實(shí)現(xiàn)了人類算法無法實(shí)現(xiàn)的成就。
現(xiàn)在想象一下,如果進(jìn)一步擴(kuò)展架構(gòu),更大的網(wǎng)絡(luò)、更多的數(shù)據(jù)和更多的計(jì)算資源,可能會(huì)實(shí)現(xiàn)什么。2012年之后,英偉達(dá)改變了GPU的架構(gòu),增加了 Tensor 核心。英偉達(dá)發(fā)明了NVLink,那是10年前的事了,CUDA,然后是TensorRT、NCCL,收購(gòu)了Mellanox、TensorRT-ML、Triton推理服務(wù)器,所有這些都整合在一臺(tái)全新的計(jì)算機(jī)上。沒有人理解,沒有人要求,沒有人理解它的意義。
事實(shí)上,黃仁勛確信沒有人想買它,英偉達(dá)在 GTC 上宣布了它,OpenAI,一個(gè)位于舊金山的小公司,請(qǐng)求英偉達(dá)為他們提供一臺(tái)。
2016 年,黃仁勛向 OpenAI 交付了第一臺(tái) DGX,世界上第一臺(tái) AI 超級(jí)計(jì)算機(jī)。之后,繼續(xù)擴(kuò)展,從一臺(tái) AI 超級(jí)計(jì)算機(jī),一臺(tái) AI 設(shè)備,擴(kuò)展到大型超級(jí)計(jì)算機(jī),甚至更大。
到2017年,世界發(fā)現(xiàn)了Transformer,使能夠訓(xùn)練大量數(shù)據(jù),識(shí)別和學(xué)習(xí)長(zhǎng)期序列模式?,F(xiàn)在,英偉達(dá)可以訓(xùn)練這些 LLM,理解并在自然語言理解方面取得突破。繼續(xù)前進(jìn),建造了更大的系統(tǒng)。
然后在 2022 年 11 月,使用成千上萬英偉達(dá) GPU和非常大的 AI 超級(jí)計(jì)算機(jī)進(jìn)行訓(xùn)練,OpenAI 發(fā)布了 ChatGPT,五天內(nèi)用戶達(dá)到一百萬,兩個(gè)月內(nèi)達(dá)到一億,成為歷史上增長(zhǎng)最快的應(yīng)用。
在 ChatGPT 向世界展示之前,AI 一直是關(guān)于感知,自然語言理解、計(jì)算機(jī)視覺、語音識(shí)別。這一切都是關(guān)于感知和檢測(cè)的。這是第一次,世界解決了生成式 AI,逐個(gè)生成 token,而這些 token 是單詞。當(dāng)然,有些 token 現(xiàn)在可以是圖像、圖表、表格、歌曲、單詞、語音、視頻。這些 token 可以是任何你能理解其意義的東西,它們可以是化學(xué)品的 token ,蛋白質(zhì)的 token ,基因的 token 。你們之前在地球 2 項(xiàng)目中看到的,生成的是天氣的 token 。
我們可以理解,我們可以學(xué)習(xí)物理。如果你能學(xué)習(xí)物理,你可以教 AI 模型物理。AI 模型可以學(xué)習(xí)物理的意義,然后可以生成物理。我們將其縮小到 1 公里,不是通過過濾,而是生成。所以我們可以用這種方法生成幾乎任何有價(jià)值的 token 。我們可以為汽車生成方向盤控制,為機(jī)器人手臂生成動(dòng)作。我們可以學(xué)習(xí)的一切,現(xiàn)在都可以生成。
▍AI 工廠
我們現(xiàn)在已經(jīng)進(jìn)入了生成式 AI 時(shí)代。但是,真正重要的是,這臺(tái)最初作為超級(jí)計(jì)算機(jī)的計(jì)算機(jī)現(xiàn)在已經(jīng)演變成了一個(gè)數(shù)據(jù)中心,它只生成一種東西,那就是 token ,它是一個(gè) AI 工廠,這家 AI 工廠正在生成、創(chuàng)造和生產(chǎn)一種極具價(jià)值的新商品。
19 世紀(jì) 90 年代末,尼古拉·特斯拉發(fā)明了交流發(fā)電機(jī),而英偉達(dá)發(fā)明了AI 生成器。交流發(fā)電機(jī)生成電子,英偉達(dá) AI 生成器生成 token,這兩種東西在市場(chǎng)上都有巨大的機(jī)會(huì),在幾乎每個(gè)行業(yè)中都是完全可以替代的,這也是為什么這是一次新的工業(yè)革命。
英偉達(dá)現(xiàn)在有一個(gè)新的工廠,為每個(gè)行業(yè)生產(chǎn)一種新的商品,這種商品具有非凡的價(jià)值。這種方法具有高度的可擴(kuò)展性,并且這種方法的可重復(fù)性也非常高。
注意到每天都有這么多不同的生成式 AI 模型被發(fā)明出來。每個(gè)行業(yè)現(xiàn)在都在涌入。第一次,價(jià)值 3 萬億美元 IT 行業(yè),正在創(chuàng)造一些可以直接服務(wù)于 100 萬億美元產(chǎn)業(yè)的東西。不再只是信息存儲(chǔ)或數(shù)據(jù)處理的工具,而是一個(gè)為每個(gè)行業(yè)生成智能的工廠。這將成為一個(gè)制造業(yè)產(chǎn)業(yè),但不是計(jì)算機(jī)制造業(yè),而是使用計(jì)算機(jī)進(jìn)行制造業(yè)。
這在歷史上從未發(fā)生過。加速計(jì)算帶來了AI,帶來了生成式 AI,現(xiàn)在帶來了工業(yè)革命。對(duì)行業(yè)的影響也非常顯著,可以為許多行業(yè)創(chuàng)造一種新商品,一種新的產(chǎn)品,稱之為 token ,但對(duì)我們自己的行業(yè)的影響也非常深遠(yuǎn)。
60 年來,計(jì)算的每一層都發(fā)生了變化,從 CPU 通用計(jì)算到加速 GPU 計(jì)算,計(jì)算機(jī)需要指令?,F(xiàn)在計(jì)算機(jī)處理 LLM,AI模型。而過去的計(jì)算模型是基于檢索的。幾乎每次你觸摸手機(jī)時(shí),都會(huì)為你檢索一些預(yù)錄文本、圖像或視頻,并基于推薦系統(tǒng)重新組合并呈現(xiàn)給你。
黃仁勛表示,未來計(jì)算機(jī)將盡可能多地生成數(shù)據(jù),只檢索必要的信息。原因是生成的數(shù)據(jù)需要更少的能量去獲取信息。生成的數(shù)據(jù)也更具上下文相關(guān)性。它將編碼知識(shí),理解你。你不再是讓計(jì)算機(jī)獲取信息或文件,而是讓它直接回答你的問題。計(jì)算機(jī)將不再是我們使用的工具,而是生成技能,執(zhí)行任務(wù)。
▍NIMs,英偉達(dá)推理微服務(wù)
而不是一個(gè)生產(chǎn)軟件的行業(yè),這在 90 年代初是一個(gè)革命性的想法。記得微軟創(chuàng)造的軟件包裝的想法革命化了PC 行業(yè)。沒有包裝軟件,我們會(huì)用 PC 做什么?它驅(qū)動(dòng)了這個(gè)行業(yè),現(xiàn)在英偉達(dá)有一個(gè)新的工廠,一個(gè)新的計(jì)算機(jī)。我們將在其上運(yùn)行一種新的軟件,稱之為 NIMs,英偉達(dá)推理微服務(wù)。
NIM 在這個(gè)工廠內(nèi)部運(yùn)行,這個(gè) NIM 是一個(gè)預(yù)訓(xùn)練模型,它是一個(gè)AI。這個(gè) AI 本身非常復(fù)雜,但運(yùn)行 AI 的計(jì)算堆棧是極其復(fù)雜的。當(dāng)你使用 ChatGPT 時(shí),其背后的堆棧是大量的軟件。其背后的提示符是大量的軟件,極其復(fù)雜,因?yàn)槟P妄嫶?,有?shù)十億到數(shù)萬億的參數(shù)。它不僅在一臺(tái)計(jì)算機(jī)上運(yùn)行,而是在多臺(tái)計(jì)算機(jī)上運(yùn)行。它必須在多個(gè) GPU 之間分配工作負(fù)載,使用張量并行、流水線并行、數(shù)據(jù)并行、各種并行性、專家并行性等各種并行性,在多個(gè) GPU 之間分配工作負(fù)載,盡可能快速地處理它。
因?yàn)槿绻阍谝粋€(gè)工廠里運(yùn)行,你的吞吐量直接與收入相關(guān)。你的吞吐量直接與服務(wù)質(zhì)量相關(guān),你的吞吐量直接與能使用你服務(wù)的人數(shù)相關(guān)。
我們現(xiàn)在處于一個(gè)數(shù)據(jù)中心吞吐量利用率至關(guān)重要的世界。在過去這很重要,但沒有現(xiàn)在重要。在過去這很重要,但人們不測(cè)量它。今天,每一個(gè)參數(shù)都被測(cè)量,啟動(dòng)時(shí)間、運(yùn)行時(shí)間、利用率、吞吐量、空閑時(shí)間等,因?yàn)檫@是一個(gè)工廠。當(dāng)某物是一個(gè)工廠時(shí),其操作直接與公司的財(cái)務(wù)表現(xiàn)相關(guān),這對(duì)大多數(shù)公司來說極其復(fù)雜。
所以英偉達(dá)做了什么?英偉達(dá)創(chuàng)建了這個(gè) AI 盒子,這個(gè)容器里裝滿了大量的軟件,這個(gè)容器內(nèi)部包括 CUDA、cuDNN、TensorRT、Triton 推理服務(wù)。它是云原生的,可以在 Kubernetes 環(huán)境中自動(dòng)擴(kuò)展,它有管理服務(wù)和鉤子,可以監(jiān)控你的 AI。它有通用 API,標(biāo)準(zhǔn) API,你可以與這個(gè)盒子聊天。下載這個(gè) NIM,可以與它聊天,只要你的計(jì)算機(jī)上有 CUDA,它現(xiàn)在當(dāng)然是無處不在的。它在每一個(gè)云中可用,來自每一個(gè)計(jì)算機(jī)制造商。它在數(shù)億臺(tái) PC 上可用,所有的軟件都整合在一起,400 個(gè)依賴項(xiàng)都整合在一個(gè)里面。
英偉達(dá)測(cè)試了這個(gè)NIM,每一個(gè)預(yù)訓(xùn)練模型都在整個(gè)安裝基礎(chǔ)上測(cè)試,所有不同版本的 Pascal、Ampere 和 Hopper,以及各種不同的版本。我甚至忘記了一些名字。令人難以置信的發(fā)明,這是我最喜歡的之一。
黃仁勛表示,英偉達(dá)有所有這些不同版本,無論是基于語言的還是基于視覺的,還是基于圖像的,或者用于醫(yī)療保健、數(shù)字生物學(xué)的版本,有數(shù)字人(10.100, -0.01, -0.10%)類的版本,只需訪問 ai.nvidia.com。
黃仁勛還表示,今天英偉達(dá)剛剛在 HuggingFace 上發(fā)布了完全優(yōu)化的 Llama3 NIM,它在那里可以供你嘗試,你甚至可以帶走它。它免費(fèi)提供給你。你可以在云中運(yùn)行它,在任何云中運(yùn)行。你可以下載這個(gè)容器,將其放入你自己的數(shù)據(jù)中心,并可以使其可用于你的客戶。
英偉達(dá)有各種不同領(lǐng)域的版本,物理學(xué),一些用于語義檢索,稱為 RAGs,視覺語言,各種不同的語言。你使用它們的方法是將這些微服務(wù)連接到大型應(yīng)用程序中。
未來最重要的應(yīng)用之一當(dāng)然是客戶服務(wù)。幾乎每個(gè)行業(yè)都需要 Agent。這代表了數(shù)萬億美元的客戶服務(wù)。護(hù)士在某些方面也是客戶服務(wù) Agent,一些非處方或非診斷性的護(hù)士基本上是零售業(yè)的客戶服務(wù),快速服務(wù)食品、金融服務(wù)、保險(xiǎn)業(yè)。數(shù)以千萬計(jì)的客戶服務(wù)現(xiàn)在可以通過語言模型和AI增強(qiáng)。因此你看到的這些盒子基本上就是NIMs。
一些 NIM 是推理 Agent,給出任務(wù),確定任務(wù),分解成計(jì)劃。一些 NIM 檢索信息。一些 NIM 可能會(huì)進(jìn)行搜索。一些 NIM 可能會(huì)使用工具,比如黃仁勛之前提到的 cuOpt。它可以使用在 SAP 上運(yùn)行的工具。因此它必須學(xué)習(xí)一種叫做 ABAP 的特定語言。也許一些 NIM 必須進(jìn)行 SQL 查詢。因此,所有這些 NIM 都是專家,現(xiàn)在被組裝成一個(gè)團(tuán)隊(duì)。
所以發(fā)生了什么變化?應(yīng)用層發(fā)生了變化。過去用指令編寫的應(yīng)用程序,現(xiàn)在是組裝AI團(tuán)隊(duì)的應(yīng)用程序。很少有人知道如何編寫程序,但幾乎每個(gè)人都知道如何分解問題并組裝團(tuán)隊(duì)。我相信未來每家公司都會(huì)有大量 NIM 集合。你會(huì)下載你想要的專家,將它們連接成一個(gè)團(tuán)隊(duì),你甚至不必確切知道如何連接它們。你只需將任務(wù)交給一個(gè) Agent,一個(gè)NIM,讓它確定如何分配任務(wù)。那個(gè)團(tuán)隊(duì)領(lǐng)導(dǎo) Agent 將會(huì)分解任務(wù)并分配給各個(gè)團(tuán)隊(duì)成員。團(tuán)隊(duì)成員會(huì)執(zhí)行任務(wù),將結(jié)果返回給團(tuán)隊(duì)領(lǐng)導(dǎo),團(tuán)隊(duì)領(lǐng)導(dǎo)會(huì)對(duì)結(jié)果進(jìn)行推理并將信息呈現(xiàn)給你,就像人類一樣,這是不久的未來,應(yīng)用的未來形態(tài)。
當(dāng)然,可以通過文本提示和語音提示與這些大型 AI 服務(wù)互動(dòng)。然而,有許多應(yīng)用程序希望與人類形式互動(dòng)。英偉達(dá)稱之為數(shù)字人類,并一直在研究數(shù)字人類技術(shù)。
黃仁勛繼續(xù)介紹,數(shù)字人類有可能成為與你互動(dòng)的偉大 Agent,使互動(dòng)更加引人入勝,更有同情心。當(dāng)然,我們必須跨越這個(gè)巨大的現(xiàn)實(shí)鴻溝,使數(shù)字人類顯得更加自然。想象一下未來,計(jì)算機(jī)能夠像人類一樣與我們互動(dòng)。這就是數(shù)字人類的驚人現(xiàn)實(shí)。數(shù)字人類將徹底改變從客戶服務(wù)到廣告和游戲的各個(gè)行業(yè)。數(shù)字人類的可能性是無窮無盡的。
使用你當(dāng)前廚房的掃描數(shù)據(jù)。通過你的手機(jī),它們將成為AI室內(nèi)設(shè)計(jì)師,幫助生成美麗的照片級(jí)建議,并提供材料和家具的來源。
英偉達(dá)已經(jīng)為你生成了幾種設(shè)計(jì)選項(xiàng)可供選擇。它們還將成為 AI 客戶服務(wù) Agent,使互動(dòng)更加生動(dòng)和個(gè)性化,或數(shù)字醫(yī)療工作者,檢查病人,提供及時(shí)和個(gè)性化的護(hù)理,它們甚至?xí)蔀?AI 品牌大使,設(shè)定下一波市場(chǎng)營(yíng)銷和廣告趨勢(shì)。
生成式 AI 和計(jì)算機(jī)圖形學(xué)的新突破讓數(shù)字人類能夠以類似人類的方式看見、理解和與我們互動(dòng)。從我所看到的情況來看,你似乎是在某種錄音或制作設(shè)置中。數(shù)字人類的基礎(chǔ)是建立在多語言語音識(shí)別和合成、以及能夠理解和生成對(duì)話的LLM模型上的AI模型。
這些 AI 連接到另一個(gè)生成式 AI,以動(dòng)態(tài)地動(dòng)畫化一個(gè)逼真的 3D 面部網(wǎng)格。最后,AI模型重現(xiàn)逼真的外觀,實(shí)現(xiàn)實(shí)時(shí)路徑跟蹤的次表面散射,模擬光線如何穿透皮膚、散射并在不同點(diǎn)出射,使皮膚具有柔和和半透明的外觀。
Nvidia Ace 是一套數(shù)字人類技術(shù),打包成易于部署的完全優(yōu)化的微服務(wù)或NIMs。開發(fā)者可以將Ace NIMs集成到他們現(xiàn)有的框架、引擎和數(shù)字人類體驗(yàn)中,Nematons SLM和LLM NIMs 理解我們的意圖并協(xié)調(diào)其他模型。
Riva Speech Nims 用于交互式語音和翻譯,Audio to Face 和 Gesture NIMs 用于面部和身體動(dòng)畫,Omniverse RTX 與 DLSS 用于皮膚和頭發(fā)的神經(jīng)渲染。
相當(dāng)令人難以置信。這些 Ace 可以在云端運(yùn)行,也可以在 PC 上運(yùn)行,在所有 RTX GPU中都包括了張量核心 GPU,所以英偉達(dá)已經(jīng)在出貨 AI GPU,為這一天做準(zhǔn)備。原因很簡(jiǎn)單,為了創(chuàng)建一個(gè)新的計(jì)算平臺(tái),首先需要一個(gè)安裝基礎(chǔ)。
最終,應(yīng)用程序會(huì)出現(xiàn)。如果不創(chuàng)建安裝基礎(chǔ),應(yīng)用程序怎么會(huì)出現(xiàn)呢?所以如果你建造它,他們可能不會(huì)來。但如果你不建造它,他們就不能來。因此,英偉達(dá)在每一個(gè) RTX GPU 中安裝了張量核心處理器?,F(xiàn)在英偉達(dá)在全球有 1 億臺(tái) GeForce RTX AI PC,并且英偉達(dá)正在出貨 200 臺(tái)。
在本次 Computex,英偉達(dá)展示了四款新的令人驚嘆的筆記本電腦。它們都能夠運(yùn)行AI。未來的筆記本電腦、PC 將成為一個(gè)AI。它將不斷在后臺(tái)幫助你、協(xié)助你。PC還將運(yùn)行由AI增強(qiáng)的應(yīng)用程序。
當(dāng)然,你所有的照片編輯、寫作工具、你使用的一切工具都將由AI增強(qiáng)。你的PC還將托管帶有數(shù)字人類的 AI 應(yīng)用程序。因此,AI 將在不同的方式中表現(xiàn)出來并被用于PC中。PC 將成為非常重要的 AI 平臺(tái)。
那么我們從這里往哪里走?我之前談到了數(shù)據(jù)中心的擴(kuò)展。每次擴(kuò)展時(shí),我們都會(huì)發(fā)現(xiàn)一個(gè)新的飛躍。當(dāng)從 DGX 擴(kuò)展到大型 AI 超級(jí)計(jì)算機(jī)時(shí),英偉達(dá)使 Transformer 能夠在非常大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。一開始,數(shù)據(jù)是人工監(jiān)督的,需要人工標(biāo)注來訓(xùn)練 AI。不幸的是,人類標(biāo)注的數(shù)據(jù)是有限的。Transformer 使得無監(jiān)督學(xué)習(xí)成為可能?,F(xiàn)在,Transformer 只需查看大量的數(shù)據(jù)、視頻或圖像,它就能通過研究大量的數(shù)據(jù)自己找到模式和關(guān)系。
下一代 AI 需要基于物理。今天的大多數(shù) AI 不了解物理定律,它們沒有扎根于物理世界。為了生成圖像、視頻和3D圖形以及許多物理現(xiàn)象,我們需要基于物理并了解物理定律的 AI。你可以通過視頻學(xué)習(xí)來實(shí)現(xiàn)這一點(diǎn),這是一種來源。
另一種方法是合成數(shù)據(jù)、模擬數(shù)據(jù),另一種方法是讓計(jì)算機(jī)相互學(xué)習(xí)。這實(shí)際上與 AlphaGo 自我對(duì)弈沒有什么不同,通過相同能力的對(duì)弈,經(jīng)過很長(zhǎng)時(shí)間,它們會(huì)變得更加聰明。你將開始看到這種類型的AI出現(xiàn)。
如果 AI 數(shù)據(jù)是合成生成的,并使用強(qiáng)化學(xué)習(xí),數(shù)據(jù)生成的速度將繼續(xù)提高。每次數(shù)據(jù)生成增長(zhǎng),需要提供的計(jì)算量也需要增長(zhǎng)。
我們即將進(jìn)入一個(gè)階段,AI 可以學(xué)習(xí)物理定律,并扎根于物理世界的數(shù)據(jù)中。因此,英偉達(dá)預(yù)計(jì)模型將繼續(xù)增長(zhǎng),我們需要更大的GPU。
▍Blackwell
Blackwell 是為這一代設(shè)計(jì)的,擁有幾項(xiàng)非常重要的技術(shù)。首先是芯片的大小。英偉達(dá)在臺(tái)積電制造了最大的芯片,并將兩個(gè)芯片通過每秒 10TB的連接連接在一起,世界上最先進(jìn)的 SerDes 將這兩個(gè)芯片連接在一起。然后英偉達(dá)將兩個(gè)芯片放在一個(gè)計(jì)算節(jié)點(diǎn)上,通過 Grace CPU 連接。
Grace CPU 可以用于多種用途。在訓(xùn)練情況下,可以用于快速檢查點(diǎn)和重啟。在推理和生成情況下,可以用于存儲(chǔ)上下文記憶,使AI了解你想要進(jìn)行的對(duì)話的上下文,這是英偉達(dá)的第二代Transformer引擎,允許根據(jù)計(jì)算層所需的精度和范圍動(dòng)態(tài)調(diào)整精度。
這是第二代具有安全 AI 的 GPU,可以要求服務(wù)提供商保護(hù) AI 免受盜竊或篡改。這是第五代 NVLink,允許將多個(gè) GPU 連接在一起,我會(huì)稍后詳細(xì)介紹。
這是英偉達(dá)的第一代具有可靠性和可用性引擎的 GPU。這個(gè) RAS 系統(tǒng)允許測(cè)試每個(gè)晶體管、觸發(fā)器、片上內(nèi)存、片外內(nèi)存,以便現(xiàn)場(chǎng)確定某個(gè)芯片是否故障。擁有 1 萬個(gè) GPU 的超級(jí)計(jì)算機(jī)的平均故障間隔時(shí)間是以小時(shí)計(jì)算的。擁有10 萬個(gè)GPU的超級(jí)計(jì)算機(jī)的平均故障間隔時(shí)間是以分鐘計(jì)算的。
因此,如果不發(fā)明技術(shù)來提高可靠性,超級(jí)計(jì)算機(jī)長(zhǎng)時(shí)間運(yùn)行并訓(xùn)練幾個(gè)月的模型幾乎是不可能的??煽啃詴?huì)提高正常運(yùn)行時(shí)間,從而直接影響成本。最后是解壓引擎,數(shù)據(jù)處理是必須做的最重要的事情之一。英偉達(dá)添加了一個(gè)數(shù)據(jù)壓縮引擎和解壓引擎,使英偉達(dá)夠從存儲(chǔ)中提取數(shù)據(jù)的速度提高 20 倍,比今天可能的速度更快。
Blackwell 正在生產(chǎn)中,擁有大量的技術(shù),可以看到每一個(gè) Blackwell 芯片,兩個(gè)連接在一起。你看到這是世界上最大的芯片。然后將兩個(gè)芯片通過每秒 10TB 連接在一起,性能是驚人的。
英偉達(dá)的每一代計(jì)算的浮點(diǎn)運(yùn)算能力增加了 1000 倍。摩爾定律在八年內(nèi)增長(zhǎng)大約 40~60 倍。而在過去的八年里,摩爾定律的增長(zhǎng)速度大大減慢。即使在摩爾定律最好的時(shí)候,也無法與 Blackwell 性能相比。
計(jì)算量是驚人的。每次提高計(jì)算能力,成本就會(huì)下降。英偉達(dá)已經(jīng)通過增加計(jì)算能力,將訓(xùn)練 GPT-4 能量需求從 1000 GWh 降低到 3 GWh。Pascal 需要 1000 GWh 的能量。1000 GWh 意味著需要一個(gè) GW 數(shù)據(jù)中心。世界上沒有一個(gè) GW的數(shù)據(jù)中心,但如果你有一個(gè) GW 數(shù)據(jù)中心,它需要一個(gè)月。如果你有一個(gè)100 MW 數(shù)據(jù)中心,需要大約一年。因此,沒有人會(huì)建造這樣的設(shè)施。
這就是為什么在八年前,像 ChatGPT 這樣的 LLM 是不可能的。通過提高性能,隨著能效的提高,英偉達(dá)現(xiàn)在將 Blackwell 的能量需求從 1000 GWh 降低到 3 GWh,這是一個(gè)令人難以置信的進(jìn)步。如果是1萬個(gè)GPU,例如,需要幾天,可能需要10天左右。在短短八年內(nèi)取得的進(jìn)展是驚人的。
這部分是關(guān)于推理和生成 token 的。生成一個(gè)GPT-4 token 需要兩個(gè)燈泡運(yùn)行兩天。生成一個(gè)單詞大約需要三個(gè) token 。因此,Pascal 生成 GPT-4 并與你進(jìn)行 ChatGPT 體驗(yàn)所需的能量幾乎是不可能的。但是現(xiàn)在每個(gè) token 只使用 0.4 焦耳,并且可以以極低的能量生成 token 。
Blackwell是一個(gè)巨大的飛躍。即便如此,它還不夠大。因此必須建造更大的機(jī)器。因此英偉達(dá)建造的方法叫做 DGX。
這是一個(gè) DGX Blackwell,這是空氣冷卻的,內(nèi)部有8個(gè)GPU。看看這些GPU上的散熱片的大小,大約15千瓦,完全是空氣冷卻的。這一版本支持x86,并進(jìn)入了英偉達(dá)一直在發(fā)貨的 Hoppers 基礎(chǔ)設(shè)施,英偉達(dá)有一個(gè)新的系統(tǒng),稱之為MGX,意為模塊化系統(tǒng)。
兩塊Blackwell板子,一個(gè)節(jié)點(diǎn)有四個(gè) Blackwell 芯片。這些 Blackwell 芯片是液冷的,72 個(gè) GPU通過新的 NVLink 連接在一起。這是第 5 代 NVLink 交換機(jī),NVLink 交換機(jī)本身就是一個(gè)技術(shù)奇跡,這是世界上最先進(jìn)的交換機(jī),數(shù)據(jù)速率驚人,這些交換機(jī)將每一個(gè) Blackwell 連接在一起,因此有一個(gè)巨大的 72 個(gè) GPU 的 Blackwell。
這樣做的好處是,在一個(gè)域中,一個(gè) GPU 域現(xiàn)在看起來像一個(gè) GPU,這個(gè) GPU 有 72個(gè),而上一代是 8 個(gè)。因此增加了九倍的帶寬。AI 浮點(diǎn)運(yùn)算性能增加了 18 倍,提高了 45 倍。而功耗僅增加了 10 倍,這是 100 千瓦,而那是 10 千瓦。這是一個(gè)。
當(dāng)然,你總是可以將更多這些連接在一起,我稍后會(huì)展示如何做到這一點(diǎn)。但奇跡在于這個(gè)芯片,這個(gè) NVLink 芯片。人們開始意識(shí)到這個(gè) NVLink 芯片的重要性,因?yàn)樗B接了所有這些不同 GPU。因?yàn)?LLM 非常龐大,不能僅僅放在一個(gè)GPU上,也不能僅僅放在一個(gè)節(jié)點(diǎn)上。它需要整個(gè) GPU 機(jī)架,比如我剛剛站在旁邊的新DGX,它可以容納數(shù)萬億參數(shù)的 LLM。
NVLink 交換機(jī)本身就是一個(gè)技術(shù)奇跡,擁有 500 億個(gè)晶體管,74 個(gè)端口,每個(gè)端口 400Gbps,橫截帶寬 7.2Tbps。但重要的是它在交換機(jī)內(nèi)有數(shù)學(xué)運(yùn)算能力,這在深度學(xué)習(xí)中非常重要,可以在芯片上進(jìn)行歸約運(yùn)算。所以這就是現(xiàn)在的DGX。
黃仁勛表示,許多人問,有人對(duì)英偉達(dá)的工作產(chǎn)生了困惑,為什么英偉達(dá)通過制造 GPU 變得如此龐大。因此有人認(rèn)為這就是 GPU 的樣子。
現(xiàn)在這是一個(gè)GPU,這是世界上最先進(jìn)的GPU之一,但這是一個(gè)游戲GPU。你和我知道這就是GP的樣子。這是一個(gè)GPU,女士們先生們,DGX GPU。你知道這個(gè)GPU的背面是NVLink主干。NVLink 主干有 5000 根線,兩英里長(zhǎng),它將兩個(gè)GPU連接在一起,這是一個(gè)電氣、機(jī)械奇跡。收發(fā)器使能夠在銅線上驅(qū)動(dòng)整個(gè)長(zhǎng)度,能夠在一個(gè)機(jī)架中節(jié)省 20 千瓦的功耗。
黃仁勛表示,有兩種類型的網(wǎng)絡(luò)。InfiniBand 在全球超級(jí)計(jì)算和 AI 工廠中被廣泛使用,增長(zhǎng)速度驚人。然而,不是每個(gè)數(shù)據(jù)中心都能處理 InfiniBand,因?yàn)樗麄円呀?jīng)在其生態(tài)系統(tǒng)中投資了太多 Ethernet,并且管理 InfiniBand 交換機(jī)和網(wǎng)絡(luò)需要一些專業(yè)知識(shí)。
因此英偉達(dá)將 InfiniBand 能力帶到了 Ethernet 架構(gòu),這是非常困難的。原因很簡(jiǎn)單。Ethernet 是為高平均吞吐量設(shè)計(jì)的,因?yàn)槊總€(gè)節(jié)點(diǎn),每臺(tái)計(jì)算機(jī)都連接到互聯(lián)網(wǎng)上的不同人,大多數(shù)通信是數(shù)據(jù)中心與互聯(lián)網(wǎng)另一端的人進(jìn)行的。
然而,深度學(xué)習(xí)和 AI 工廠,GPU 主要是相互通信的。它們彼此通信,因?yàn)樗鼈冊(cè)谑占糠之a(chǎn)品,然后進(jìn)行歸約并重新分發(fā)。部分產(chǎn)品的收集、歸約和重新分發(fā)。這種流量是非常突發(fā)的,重要的不是平均吞吐量,而是最后一個(gè)到達(dá)的。因此英偉達(dá)創(chuàng)建了幾項(xiàng)技術(shù),創(chuàng)建了端到端架構(gòu),使網(wǎng)絡(luò)接口卡和交換機(jī)可以通信,并應(yīng)用了四種不同的技術(shù)來實(shí)現(xiàn)這一點(diǎn)。首先,英偉達(dá)擁有世界上最先進(jìn)的 RDMA,現(xiàn)在能夠在 Ethernet 上進(jìn)行網(wǎng)絡(luò)級(jí) RDMA,這是非常了不起的。
第二,英偉達(dá)有擁塞控制。交換機(jī)一直在進(jìn)行快速遙測(cè),當(dāng) GPU 或網(wǎng)絡(luò)接口卡發(fā)送太多信息時(shí),可以告訴它們退后,以免造成熱點(diǎn)。
第三,自適應(yīng)路由。Ethernet 需要按順序傳輸和接收。英偉達(dá)看到擁塞或未使用的端口,不論順序如何,將發(fā)送到可用端口,BlueField 在另一端重新排序,以確保順序正確,自適應(yīng)路由非常強(qiáng)大。
最后,噪聲隔離。數(shù)據(jù)中心總是有多個(gè)模型在訓(xùn)練或其他事情在進(jìn)行,它們的噪聲和流量可能相互干擾并導(dǎo)致抖動(dòng)。因此,當(dāng)一個(gè)訓(xùn)練模型的噪聲導(dǎo)致最后一個(gè)到達(dá)的時(shí)間過晚時(shí),整體訓(xùn)練速度會(huì)顯著降低。
記住,你已經(jīng)建造了一個(gè)價(jià)值 50 億美元或 30 億美元的數(shù)據(jù)中心,用于訓(xùn)練。如果網(wǎng)絡(luò)利用率降低 40%,導(dǎo)致訓(xùn)練時(shí)間延長(zhǎng) 20%,50 億美元的數(shù)據(jù)中心實(shí)際上相當(dāng)于一個(gè) 60 億美元的數(shù)據(jù)中心。因此成本影響非常大。使用 Spectrum X 的 Ethernet 允許大幅提高性能,而網(wǎng)絡(luò)基本上是免費(fèi)的。
英偉達(dá)有一整條 Ethernet產(chǎn)品線。這是 Spectrum X800,速度為每秒51.2Tbps,256個(gè)端口。接下來的是512個(gè)端口,明年推出,稱為 Spectrum X800 Ultra,再接下來是 X16。重要的理念是 X800 設(shè)計(jì)用于成千上萬個(gè) GPU,X800 Ultra 設(shè)計(jì)用于數(shù)十萬個(gè) GPU,X16 設(shè)計(jì)用于數(shù)百萬個(gè) GPU,數(shù)百萬 GPU 數(shù)據(jù)中心時(shí)代即將到來。
未來幾乎你與互聯(lián)網(wǎng)或計(jì)算機(jī)的每一次互動(dòng)都會(huì)在某個(gè)地方運(yùn)行一個(gè)生成式AI。這個(gè)生成式AI與你合作,與你互動(dòng),生成視頻、圖像或文本,甚至是一個(gè)數(shù)字人類。你幾乎一直在與計(jì)算機(jī)互動(dòng),總有一個(gè)生成式 AI 連接著,部分在本地,部分在你的設(shè)備上,大部分可能在云端。這些生成式 AI 還會(huì)進(jìn)行大量推理能力,不是一次性的回答,而是通過多次迭代改進(jìn)答案的質(zhì)量。所以未來生成的內(nèi)容量將是驚人的。
Blackwell當(dāng)然是英偉達(dá)平臺(tái)的第一代,在世界認(rèn)識(shí)到生成式AI時(shí)代來臨之際發(fā)布。正當(dāng)世界意識(shí)到AI工廠的重要性,正值這一新工業(yè)革命的開始。英偉達(dá)得到了幾乎所有 OEM、計(jì)算機(jī)制造商、云服務(wù)提供商、GPU云、主權(quán)云,甚至電信公司的支持。Blackwell 的成功、采用和熱情真是難以置信。我想感謝大家。
黃仁勛繼續(xù)比哦啊是,在這個(gè)驚人的增長(zhǎng)期間,英偉達(dá)要確保繼續(xù)提高性能,繼續(xù)降低訓(xùn)練成本和推理成本,并繼續(xù)擴(kuò)展 AI 能力,使每家公司都能接受。英偉達(dá)推動(dòng)性能的提升,成本的下降越大。Hopper 平臺(tái)當(dāng)然是歷史上最成功的數(shù)據(jù)中心處理器,這真的是一個(gè)不可思議的成功故事。
然而,Blackwell 已經(jīng)到來,每一個(gè)平臺(tái),如你所見,都包含了幾樣?xùn)|西。你有CPU,有 GPU,有NVLink,有網(wǎng)絡(luò)接口,還有連接所有GPU的 NVLink 交換機(jī),盡可能大規(guī)模的域。無論能做什么,英偉達(dá)都將其連接到大規(guī)模、非常高速的交換機(jī)。
每一代產(chǎn)品,你會(huì)發(fā)現(xiàn)不僅僅是 GPU,而是整個(gè)平臺(tái)。構(gòu)建整個(gè)平臺(tái)。將整個(gè)平臺(tái)集成到一個(gè) AI 工廠超級(jí)計(jì)算機(jī)中。然而,再將其分解并提供給世界。這樣做的原因是因?yàn)槟銈兯腥硕伎梢詣?chuàng)建有趣和創(chuàng)新的配置,并適應(yīng)不同的數(shù)據(jù)中心和不同的客戶需求,有些用于邊緣計(jì)算,有些用于電信。所有不同的創(chuàng)新都是可能的,如果將系統(tǒng)開放,并使你們能夠創(chuàng)新。因此英偉達(dá)設(shè)計(jì)了集成的,但將其分解提供給客戶,以便可以創(chuàng)建模塊化系統(tǒng)。
Blackwell 平臺(tái)已經(jīng)到來,英偉達(dá)的基本理念非常簡(jiǎn)單:每年構(gòu)建整個(gè)數(shù)據(jù)中心,分解并以零件形式銷售,將一切推向技術(shù)的極限,無論是臺(tái)積電的工藝技術(shù)、封裝技術(shù)、內(nèi)存技術(shù)、SerDes技術(shù)、光學(xué)技術(shù),一切都被推向極限。之后,確保所有軟件都能在整個(gè)安裝基礎(chǔ)上運(yùn)行。
軟件慣性是計(jì)算機(jī)中最重要的事情之一。當(dāng)計(jì)算機(jī)向后兼容,并與所有已創(chuàng)建的軟件架構(gòu)兼容時(shí),你進(jìn)入市場(chǎng)的速度會(huì)快得多。因此,當(dāng)能夠利用已經(jīng)創(chuàng)建的整個(gè)軟件安裝基礎(chǔ)時(shí),速度是驚人的。
黃仁勛表示,Blackwell 已經(jīng)到來,明年是 Blackwell Ultra,就像有 H100 和H200,你們可能會(huì)看到一些令人興奮的新一代 Blackwell Ultra,推動(dòng)極限。我提到的下一代 Spectrum 交換機(jī),這是第一次實(shí)現(xiàn)這種飛躍,下一代平臺(tái)叫做Ruben,再一年后將有 Ruben Ultra 平臺(tái)。
展示的所有這些芯片都在全速開發(fā)中,100% 的開發(fā)。這是英偉達(dá)一年的節(jié)奏,所有 100% 架構(gòu)兼容,英偉達(dá)正在構(gòu)建的所有豐富的軟件。
▍AI 機(jī)器人
讓我談?wù)劷酉聛頃?huì)發(fā)生什么,下一波 AI 是物理 AI,了解物理定律,能夠在我們中間工作。因此,它們必須理解世界模型,理解如何解釋世界,如何感知世界。它們當(dāng)然還需要出色的認(rèn)知能力,以便理解我們的問題并執(zhí)行任務(wù)。
機(jī)器人是一個(gè)更廣泛的概念。當(dāng)然,當(dāng)我說機(jī)器人時(shí),通常指的是人形機(jī)器人,但這并不完全正確。一切都將是機(jī)器人。所有的工廠將是機(jī)器人化的,工廠將協(xié)調(diào)機(jī)器人,這些機(jī)器人將制造機(jī)器人產(chǎn)品,機(jī)器人相互協(xié)作,制造機(jī)器人產(chǎn)品。為了實(shí)現(xiàn)這一點(diǎn),需要一些突破。
接下來,黃仁勛展示了一段視頻,視頻中提到:
機(jī)器人時(shí)代已經(jīng)到來。一天內(nèi),所有移動(dòng)的東西都將是自主的。世界各地的研究人員和公司正在開發(fā)由物理AI驅(qū)動(dòng)的機(jī)器人,這些AI模型能夠理解指令,并在現(xiàn)實(shí)世界中自主執(zhí)行復(fù)雜任務(wù)。多模態(tài) LLM 是突破,使機(jī)器人能夠?qū)W習(xí)、感知和理解周圍的世界,并規(guī)劃它們的行動(dòng)。
通過人類演示,機(jī)器人現(xiàn)在可以學(xué)習(xí)所需的技能,使用粗大和精細(xì)的運(yùn)動(dòng)技能與世界互動(dòng)。推進(jìn)機(jī)器人技術(shù)的一個(gè)關(guān)鍵技術(shù)是強(qiáng)化學(xué)習(xí)。就像 LLM 需要 RLHF來學(xué)習(xí)特定技能一樣,生成物理 AI 可以使用物理反饋在模擬世界中學(xué)習(xí)技能。這些模擬環(huán)境是機(jī)器人通過在遵循物理定律的虛擬世界中執(zhí)行動(dòng)作來學(xué)習(xí)決策的地方。在這些機(jī)器人健身房中,機(jī)器人可以安全快速地學(xué)習(xí)執(zhí)行復(fù)雜和動(dòng)態(tài)的任務(wù),通過數(shù)百萬次試驗(yàn)和錯(cuò)誤行為來提高技能。
英偉達(dá)構(gòu)建了Nvidia Omniverse 作為物理AI的操作系統(tǒng)。Omniverse 是一個(gè)虛擬世界模擬開發(fā)平臺(tái),結(jié)合了實(shí)時(shí)物理渲染、物理模擬和生成式AI技術(shù)。在Omniverse 中,機(jī)器人學(xué)習(xí)如何成為機(jī)器人。它們學(xué)習(xí)如何自主精確地操控物體,比如抓取和處理物體,或自主導(dǎo)航環(huán)境,找到最佳路徑,同時(shí)避免障礙和危險(xiǎn)。在 Omniverse 中學(xué)習(xí)最大限度地減少模擬與現(xiàn)實(shí)的差距,并最大限度地轉(zhuǎn)移所學(xué)行為。
構(gòu)建具有生成物理AI的機(jī)器人需要三臺(tái)計(jì)算機(jī):Nvidia AI超級(jí)計(jì)算機(jī)來訓(xùn)練模型,Nvidia Jetson Orin 和下一代 Jetson Thor 機(jī)器人超級(jí)計(jì)算機(jī)來運(yùn)行模型,以及Nvidia Omniverse,機(jī)器人可以在模擬世界中學(xué)習(xí)和改進(jìn)技能。構(gòu)建了開發(fā)人員和公司所需的平臺(tái)、加速庫和AI模型,并允許他們使用最適合的堆棧。下一波AI已經(jīng)到來。由物理 AI 驅(qū)動(dòng)的機(jī)器人將徹底改變各個(gè)行業(yè)。
黃仁勛提到,這不是未來,這正在發(fā)生。英偉達(dá)將通過幾種方式服務(wù)市場(chǎng)。首先,英偉達(dá)將為每種類型的機(jī)器人系統(tǒng)創(chuàng)建平臺(tái),一個(gè)用于機(jī)器人工廠和倉(cāng)庫,一個(gè)用于操縱物體的機(jī)器人,一個(gè)用于移動(dòng)的機(jī)器人,一個(gè)用于人形機(jī)器人。因此,每個(gè)機(jī)器人平臺(tái)就像英偉達(dá)做的幾乎所有事情一樣,都是計(jì)算機(jī)、加速庫和預(yù)訓(xùn)練模型。計(jì)算機(jī)、加速庫、預(yù)訓(xùn)練模型。在 Omniverse 中測(cè)試、訓(xùn)練和集成所有東西,正如視頻所說,機(jī)器人在這里學(xué)習(xí)如何成為機(jī)器人。
當(dāng)然,機(jī)器人倉(cāng)庫的生態(tài)系統(tǒng)非常復(fù)雜。建造現(xiàn)代倉(cāng)庫需要很多公司、很多工具、很多技術(shù),倉(cāng)庫正日益自動(dòng)化。有一天,它們將完全自動(dòng)化。因此,在每個(gè)生態(tài)系統(tǒng)中,都有連接到軟件行業(yè)的 SDK 和 API,連接到邊緣 AI 行業(yè)和公司的 SDK 和 API,以及為 Odms 設(shè)計(jì)的 PLC 和機(jī)器人系統(tǒng)的系統(tǒng)集成。這些最終由集成商集成,構(gòu)建給客戶的倉(cāng)庫。這里有一個(gè)例子,Kenmac 為 Giant 集團(tuán)構(gòu)建的機(jī)器人倉(cāng)庫。
黃仁勛繼續(xù)表示,工廠有一個(gè)完全不同的生態(tài)系統(tǒng),富士康正在建造一些世界上最先進(jìn)的工廠。它們的生態(tài)系統(tǒng)再次包括邊緣計(jì)算機(jī)和機(jī)器人,設(shè)計(jì)工廠的軟件、工作流程、編程機(jī)器人以及協(xié)調(diào)數(shù)字工廠和 AI 工廠的 PLC 計(jì)算機(jī)。英偉達(dá)有連接到每個(gè)生態(tài)系統(tǒng)的 SDK,這在整個(gè)臺(tái)灣都在發(fā)生。
富士康正在為其工廠建造數(shù)字孿生體。臺(tái)達(dá)正在為其工廠建造數(shù)字孿生體。順便說一下,一半是真實(shí)的,一半是數(shù)字的,一半是Omniverse。和碩正在為其機(jī)器人工廠建造數(shù)字孿生體,廣達(dá)正在為其機(jī)器人工廠建造數(shù)字孿生體。
黃仁勛繼續(xù)演示了一段視頻,視頻中提到:
隨著世界將傳統(tǒng)數(shù)據(jù)中心現(xiàn)代化為生成式AI工廠,對(duì)Nvidia加速計(jì)算的需求正在飆升。富士康,世界上最大的電子制造商,正準(zhǔn)備通過Nvidia Omniverse和AI建造機(jī)器人工廠來滿足這一需求。工廠規(guī)劃人員使用Omniverse將來自西門子Team Center X和Autodesk Revit等領(lǐng)先行業(yè)應(yīng)用程序的設(shè)施和設(shè)備數(shù)據(jù)集成到數(shù)字孿生體中。
在數(shù)字孿生體中,他們優(yōu)化了地板布局和生產(chǎn)線配置,并定位了最佳相機(jī)位置,以使用Nvidia Metropolis支持的視覺AI監(jiān)控未來的操作。虛擬集成節(jié)省了規(guī)劃人員在建設(shè)期間巨大的物理變更訂單成本。富士康團(tuán)隊(duì)使用數(shù)字孿生體作為準(zhǔn)確設(shè)備布局的真實(shí)來源進(jìn)行溝通和驗(yàn)證。
Omniverse數(shù)字孿生體也是機(jī)器人健身房,富士康開發(fā)人員在這里為機(jī)器人感知和操作訓(xùn)練和測(cè)試Nvidia Isaac AI應(yīng)用程序,以及用于傳感器融合的Metropolis AI應(yīng)用程序。
黃仁勛繼續(xù)表示,在Omniverse中,富士康模擬了兩個(gè)機(jī)器人AI,在將運(yùn)行時(shí)部署到裝配線上的 Jetson 計(jì)算機(jī)之前。他們模擬了 Isaac Manipulator 庫和用于自動(dòng)光學(xué)檢測(cè)的AI模型,以進(jìn)行物體識(shí)別、缺陷檢測(cè)和軌跡規(guī)劃。他們還模擬了Isaac Perceptor驅(qū)動(dòng)的Ferrobot AMRS,這些機(jī)器人通過3D映射和重建感知和移動(dòng)他們的環(huán)境。通過Omniverse,富士康建立了運(yùn)行在Nvidia Isaac上的機(jī)器人工廠,這些機(jī)器人建造了Nvidia AI超級(jí)計(jì)算機(jī),反過來訓(xùn)練富士康的機(jī)器人。
一個(gè)機(jī)器人工廠設(shè)計(jì)了三臺(tái)計(jì)算機(jī)。首先在Nvidia AI上訓(xùn)練AI,然后在PLC系統(tǒng)上運(yùn)行機(jī)器人以協(xié)調(diào)工廠操作,最后在Omniverse中模擬一切。機(jī)器人手臂和機(jī)器人AMRS也是如此,三臺(tái)計(jì)算機(jī)系統(tǒng)的區(qū)別在于兩個(gè)Omniverse將結(jié)合在一起,共享一個(gè)虛擬空間。當(dāng)它們共享一個(gè)虛擬空間時(shí),機(jī)器人手臂將進(jìn)入機(jī)器人工廠。再次強(qiáng)調(diào),三臺(tái)計(jì)算機(jī),提供計(jì)算機(jī)、加速層和預(yù)訓(xùn)練AI模型。
英偉達(dá)將Nvidia Manipulator和Nvidia Omniverse與世界領(lǐng)先的工業(yè)自動(dòng)化軟件和系統(tǒng)公司西門子連接起來。這真的是一個(gè)非常棒的合作,他們正在世界各地的工廠中工作。
Semantic Pick AI現(xiàn)在集成了Isaac Manipulator,Semantic Pick AI運(yùn)行并操作ABB、Kuka、安川、Fanuc、Universal Robotics和Techman。因此,西門子是一個(gè)絕佳的整合。
黃仁勛繼續(xù)演示了一段視頻,視頻中提到:
Arcbest正在將Isaac Perceptor集成到Fox智能自主機(jī)器人中,以增強(qiáng)物體識(shí)別和人體動(dòng)作跟蹤及材料處理。比亞迪(238.150, 1.05, 0.44%)電子正在將Isaac Manipulator和Perceptor集成到他們的AI機(jī)器人中,以提高全球客戶的制造效率。Ideal Works正在將Isaac Perceptor集成到他們的iOS軟件中,用于工廠物流中的AI機(jī)器人。
Gideon正在將Isaac Perceptor集成到托盤AI驅(qū)動(dòng)的叉車中,以推進(jìn)AI驅(qū)動(dòng)的物流。Argo Robotics正在采用Isaac Perceptor用于高級(jí)視覺AMRS的感知引擎。Solomon正在他們的Acupic 3D軟件中使用Isaac Manipulator AI模型進(jìn)行工業(yè)操作。Techman Robot正在將Isaac Sim和Manipulator集成到TM Flow中,以加速自動(dòng)光學(xué)檢測(cè)。Teradine Robotics正在將Isaac Manipulator集成到Polyscope X用于協(xié)作機(jī)器人,并將Isaac Perceptor集成到MiR AMRS中。
Vention正在將Isaac Manipulator集成到Machine Logic中,用于AI操作機(jī)器人。機(jī)器人技術(shù)已經(jīng)到來,物理AI已經(jīng)到來。
黃仁勛繼續(xù)介紹,這不是科幻小說,它正在整個(gè)臺(tái)灣被廣泛應(yīng)用,真的非常令人興奮。這是工廠,里面的機(jī)器人,當(dāng)然所有產(chǎn)品也將是機(jī)器人化的。
有兩種非常高產(chǎn)量的機(jī)器人產(chǎn)品。一種當(dāng)然是自動(dòng)駕駛汽車或具有高度自動(dòng)駕駛能力的汽車。英偉達(dá)再次構(gòu)建了整個(gè)堆棧。
明年,英偉達(dá)將與梅賽德斯車隊(duì)一起投入生產(chǎn)。之后,在 2026 年,將是 JLR 車隊(duì)。英偉達(dá)向世界提供整個(gè)堆棧。然而,你可以選擇英偉達(dá)堆棧中的任何部分,任何層,就像整個(gè) Drive 堆棧是開放的。
下一個(gè)將由機(jī)器人工廠內(nèi)的機(jī)器人制造的高產(chǎn)量機(jī)器人產(chǎn)品可能是人形機(jī)器人。近年來在認(rèn)知能力和世界理解能力方面取得了巨大進(jìn)展,這要?dú)w功于基礎(chǔ)模型和英偉達(dá)正在開發(fā)的技術(shù)。
黃仁勛表示,他對(duì)這一領(lǐng)域非常興奮,因?yàn)轱@然,最容易適應(yīng)世界的機(jī)器人是人形機(jī)器人,因?yàn)槲覀優(yōu)樽约航ㄔ炝诉@個(gè)世界,還可以通過演示和視頻提供大量的訓(xùn)練數(shù)據(jù),遠(yuǎn)遠(yuǎn)超過其他類型的機(jī)器人。因此,英偉達(dá)將在這一領(lǐng)域看到很多進(jìn)展。
下一波AI。臺(tái)灣不僅制造帶鍵盤的計(jì)算機(jī),還制造用于口袋的計(jì)算機(jī)、用于數(shù)據(jù)中心的計(jì)算機(jī)。在未來,你們將制造會(huì)走動(dòng)的計(jì)算機(jī)和四處滾動(dòng)的計(jì)算機(jī)。這些都是計(jì)算機(jī)。事實(shí)證明,構(gòu)建這些計(jì)算機(jī)的技術(shù)與今天你們已經(jīng)構(gòu)建的所有其他計(jì)算機(jī)的技術(shù)非常相似,這將是一個(gè)非常非凡的旅程。
評(píng)論