NVIDIA GeForce RTX5090與RTX4090 — 新halo GPU對比

—— NVIDIA在 AI 和新功能上押注甚至比 40 系列還要多。

作者：時間：2025-01-09 來源：Toms hardware

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

Blackwell RTX 50 系列 GPU 標志著自 2022 年底推出 RTX 40 系列 Ada Lovelace GPU 以來長達兩年多的等待結(jié)束。NVIDIA在 CES主題演講期間宣布了即將推出的 GeForce RTX 2025 系列顯卡，提供了規(guī)格、定價，甚至性能預(yù)覽。作為新的 halo 部件，RTX 5090 取代了 RTX 4090，擁有更多的內(nèi)存、更多的計算、更多的功能和更多的功能。它尚未上市，但在卡片開始銷售之前，有很多事情值得剖析。

本文引用地址：http://www.ex-cimer.com/article/202501/466160.htm

RTX 5090 到貨時會成為最好的顯卡之一嗎？如果 “最好 ”是指 “最快 ”，那么是的，毫無疑問它將超越它的前身。它會快兩倍嗎？也許取決于你想要如何測量性能，但這會讓人們非常信任與傳統(tǒng)渲染不同的 AI 技術(shù)。讓我們深入研究我們所知道的規(guī)格和功能，以討論 GPU 世界的新舊之王如何評估。

讓我們先談?wù)勗家?guī)格。RTX 5090 有 170 個 Blackwell 流多處理器（SM），而 4090 有 128 個 SM。這意味著 GPU 核心增加了 33%，而 CUDA 核心、張量核心、RT 核心、紋理單元等的數(shù)量與 SM 數(shù)量直接相關(guān)，因此總體上基本上增加了 33%。

然而，時鐘速度也起著一定的作用，4090 的升壓時鐘為 2520 MHz，而（根據(jù)計算和 NVIDIA的官方規(guī)格）升壓時鐘為 2407 MHz。這意味著對于原始計算，5090 “僅”比 4090 提高了 27%。但是，這是假設(shè)不存在其他體系結(jié)構(gòu)差異，這幾乎可以肯定不是一個好的假設(shè)。

RTX 5090 的內(nèi)存容量、速度和帶寬都更高，這要歸功于 GDDR7 以及更大、更堅固的芯片。RTX 5090 的 VRAM 比 4090 多 33%，頻率高出 33%，原始帶寬凈提升 78%。我們不知道 L2 緩存大小，也不知道是否有任何其他可能影響帶寬的變化，這兩者都是重要的考慮因素。盡管如此，這還是原始內(nèi)存帶寬的大幅增加。

NVIDIA在 RTX 50 系列的 AI 上押注很大，這就是我們看到的一些最大變化的地方。RTX 4090 具有 661 TFLOPS 的 FP16 張量計算（具有稀疏性）和 1321 TOPS（萬億次）的 INT8 張量計算（同樣具有稀疏性）。這遠遠超過了 AMD 的 RX 7900 XTX，后者僅提供 FP16 / INT8 計算的 123 TFLOPS / TOPS（無稀疏性）。但與 RTX 5090 相比，它仍然相形見絀。

我們不確定 FP16 的數(shù)字，但假設(shè) NVIDIA遵循與上一代相同的比率，RTX 5090 將提供高達 1676 TFLOPS 的張量 FP16 計算，是 3352 TOPS 張量 INT8 計算的兩倍（兩者都具有稀疏性）。新一代的 AI 計算性能提高了 154%（2.54 倍）。NVIDIA打算充分利用 AI 的潛力。

顯卡	RTX 5090	RTX 4090
架構(gòu)	GB202	AD102
進程節(jié)點	臺積電 4NP	臺積電 4N
晶體管（十億）	92	76.3
芯片尺寸（mm^2）	744	608.4
短信	170	128
GPU 著色器	21760	16384
Tensor 核心	680	512
RT 核心	170	128
升壓時鐘（MHz）	2407	2520
VRAM 速度（Gbps）	28	21
顯存（GB）	32	24
VRAM 總線寬度	512	384
L2 緩存	128?	72
渲染輸出單位	240?	176
紋理映射單位	680	512
TFLOPS FP32 （升壓）	104.8	82.6
TFLOPS FP16 （INT8 TOPS）	1676?(3352)	661 (1321)
帶寬（GB/s）	1792	1008
TBP（瓦特）	575	450
發(fā)布日期	2025 年 1 月	2022 年 10 月
發(fā)布價格	1,999 美元	1,599 美元

（圖片來源：Nvidia）

正如我們在其他地方討論的那樣，NVIDIA DLSS 4 將利用 Blackwell 中的新功能來支持其 AI 算法。多幀生成將“預(yù)測未來”，并從一個渲染（可能放大）的幀生成最多三個額外的幀。因為它使用的是幀投影而不是插值，所以延遲損失應(yīng)該與我們已經(jīng)看到的 DLSS 3 幀生成沒有太大區(qū)別，但額外的幀將使一切看起來更流暢。

那實際感覺如何？我們自己還沒有機會測試它，所以我們保留任何最終判斷，但我們對此持懷疑態(tài)度。它可能會正常工作，但一個基于用戶輸入的渲染幀后跟三個 AI 生成的沒有新用戶輸入的幀，與每一幀都接受任何新用戶輸入并完全渲染的游戲感覺不同。

然而，還有其他變化即將到來，其中一些是 Blackwell RTX 5090 獨有的，而另一些將與舊的 RTX 卡一起使用。RTX Neural Materials 似乎使用 AI 壓縮和學(xué)習(xí)將游戲中使用的紋理和材質(zhì)描述的內(nèi)存需求降低了約三分之一。但是，硬件管道需要能夠?qū)?AI 與著色器一起使用才能完成這項工作，因此這將是另一個 50 系列獨有的。

另一方面，DLSS Transformer 升級使用基于 AI Transformer 構(gòu)建的新訓(xùn)練網(wǎng)絡(luò)，而不是早期 DLSS 升級算法中使用的卷積神經(jīng)網(wǎng)絡(luò) （CNN）。Transformer 一直是 AI 革命的核心，為 ChatGPT、DALL-E 和其他 AI 內(nèi)容生成器等產(chǎn)品提供支持。NVIDIA展示的新舊 DLSS 升級示例視頻看起來非常令人印象深刻，我們渴望親自嘗試。更重要的是，新的 DLSS Transformer 算法顯然比舊的 CNN 版本運行得更快，并且適用于所有 RTX GPU。

NVIDIA自己的性能預(yù)覽表明 RTX 5090 的速度可以提高到 RTX 4090 的兩倍，還展示了一些游戲在一個實例中沒有 DLSS 4 甚至 DLSS 3 來攪渾水。從《孤島驚魂 6》的結(jié)果來看，在新的 AI 功能不屬于等式的游戲中，5090 的性能似乎將比 4090 高出約 27%。在《瘟疫傳說：安魂曲》中，差距增加到大約 43%（是的，我正在數(shù)像素！而在使用 DLSS 4 MFG（與 DLSS 3 FG 相比）的游戲中，NVIDIA的改進為 2.3 倍到 2.45 倍。

這是否意味著 RTX 5090 值得或不值得更高的價格？我們認為這在很大程度上取決于您在做什么。幾乎可以肯定，會有很多對 AI 感興趣的人和公司會抓住機會花 1,999 美元購買 RTX 5090。在過去的幾年里，這些群體一直在購買 RTX 4090 卡。在生成式 AI 測試中，使用 Flux.dev 時，5090 的性能也出現(xiàn)了 2 倍的巨大躍升。

但是，如果您主要玩游戲，并且不喜歡幀生成？坐下來等待一段時間，看看事情如何發(fā)展可能不是一個壞主意。也許 DLSS 4 在實際使用中看起來和感覺都很棒?；蛘撸苍S通過新的 575 針連接器拉動高達 16W 的功率將導(dǎo)致 Meltgate 第 2 部分。但無論你怎么切分，花在游戲 GPU 上都是很多錢——你肯定會希望你的 PC 的其余部分能夠完成這項任務(wù)，因為為 RTX 5090 提供動力并提供穩(wěn)定的游戲更新流需要一臺非常強大的 PC。

新聞中心

NVIDIA GeForce RTX5090與RTX4090 — 新halo GPU對比

評論

相關(guān)推薦

技術(shù)專區(qū)