深度分析AMD游戲GPU架構(gòu)的成功與優(yōu)點(diǎn)

作者：techspot 時(shí)間：2023-11-21 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

2019 年，AMD 推出了一款新的 GPU 架構(gòu)，這是該公司七年來(lái)首次推出主要的圖形芯片設(shè)計(jì)。自首次亮相以來(lái)，該架構(gòu)經(jīng)歷了兩次修訂，強(qiáng)調(diào)了 chiplet 和緩存在渲染領(lǐng)域的重要性。鑒于這些發(fā)展，評(píng)估 AMD 憑借其工程能力所取得的成就并考慮每次更新的影響是有意義的。

本文引用地址：http://www.ex-cimer.com/article/202311/453142.htm

我們將探索這項(xiàng)技術(shù)，評(píng)估其在游戲中的表現(xiàn)，并研究其對(duì) AMD 的財(cái)務(wù)影響。

RDNA 是否像 Zen 一樣取得了巨大的成功? 或者，各種各樣的修改是否會(huì)給 AMD 帶來(lái)另一個(gè)「Bulldozer」時(shí)刻? 讓我們來(lái)看看。

為什么 GCN 需要改變

目前 AMD 的 GPU 分為兩個(gè)截然不同的產(chǎn)品領(lǐng)域，一個(gè)是針對(duì)游戲的，另一個(gè)是用于超級(jí)計(jì)算機(jī)、大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)系統(tǒng)的。

然而，它們都有著相同的傳統(tǒng)——一種被稱為 Graphics Core Next（GCN）的架構(gòu)。它首次出現(xiàn)于 2012 年，盡管在此過(guò)程中進(jìn)行了一些重大修改，但仍使用了近 10 年。GCN 是對(duì)其前身 TeraScale 的徹底改革，從一開(kāi)始，它就被設(shè)計(jì)為具有高度可擴(kuò)展性，在圖形和通用計(jì)算（GPGPU）應(yīng)用中同樣適用。

縮放是處理單元組合在一起的方式。從 GCN 的最初版本到最終版本，GPU 的基礎(chǔ)由 4 個(gè)計(jì)算單元 (CU) 組成。

每個(gè)處理器都包含 4 個(gè) SIMD(單指令，多數(shù)據(jù)) 矢量單元，在 16 個(gè)數(shù)據(jù)點(diǎn)上執(zhí)行數(shù)學(xué)運(yùn)算，大小為 32 位，還有一個(gè)標(biāo)量單元用于基于整數(shù)的邏輯運(yùn)算。

每個(gè)矢量 SIMD 都有一個(gè) 64 kB 的寄存器文件，所有四個(gè)單元共享一個(gè) 64 kB 的暫存塊 (稱為本地?cái)?shù)據(jù)共享，LDS)，所有處理單元共享一個(gè) 16 kB 的 L1 數(shù)據(jù)緩存。四組 CU 共享一個(gè) 16 kB 的標(biāo)量緩存和一個(gè) 32 kB 的指令緩存，所有這些緩存都鏈接到一個(gè) GPU 級(jí)的 L2 緩存。

到 2018 年 GCN 5.1 發(fā)布時(shí)，這些都沒(méi)有太大變化，盡管對(duì)緩存層次結(jié)構(gòu)的操作方式進(jìn)行了多次改進(jìn)。然而，對(duì)于游戲世界來(lái)說(shuō)，GCN 有一些明顯的缺點(diǎn)，但可以總結(jié)為，對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，從芯片中獲得處理吞吐量和帶寬利用率方面的最佳性能是一個(gè)挑戰(zhàn)。

例如，GPU 以 64 個(gè)線程為一組 (每個(gè)線程稱為一個(gè)波或波前) 進(jìn)行調(diào)度，每個(gè) SIMD 單元可以使用不同的波發(fā)出，最多排隊(duì) 10 個(gè)深度。然而，指令的發(fā)布率是每 4 個(gè)周期 1 次，因此為了確保單元保持繁忙，需要調(diào)度大量線程——這在計(jì)算世界中是可以實(shí)現(xiàn)的，而在游戲中則不然。

GCN 的第一個(gè)版本擁有稱為異步計(jì)算引擎（ACE）的硬件結(jié)構(gòu)。當(dāng)涉及到在 3D 游戲中的渲染幀時(shí)，GPU 會(huì)由排在長(zhǎng)隊(duì)列中的系統(tǒng)發(fā)出命令。然而，它們并不都需要按照嚴(yán)格的線性順序完成，這就是 ACE 發(fā)揮作用的地方。

基于 GCN 的 GPU 基本上可以將隊(duì)列分成三種不同的類型 (分別用于圖形命令、計(jì)算工作和數(shù)據(jù)事務(wù))，然后相應(yīng)地對(duì)它們進(jìn)行調(diào)度。然而，當(dāng)時(shí) Direct3D API 對(duì)該系統(tǒng)沒(méi)有太多支持，盡管 2015 年 Direct3D 12 發(fā)布后，異步著色就風(fēng)靡一時(shí)。AMD 利用了這一點(diǎn)，使 GCN 更加專注于計(jì)算。

這一點(diǎn)從 AMD 在高端游戲顯卡市場(chǎng)推出的最新產(chǎn)品——售價(jià) 700 美元的 Radeon VII(見(jiàn)下圖) 中可以明顯看出。它在 4096 位寬總線上擁有 60 個(gè) cu(完整芯片有 64 個(gè) cu) 和 16gb HBM2 內(nèi)存，絕對(duì)是一個(gè) GPU 怪物。

與同樣售價(jià) 700 美元的 GeForce RTX 2080 相比，它在某些游戲中可能會(huì)更快，但大多數(shù)基準(zhǔn)測(cè)試結(jié)果表明，該架構(gòu)并不適合現(xiàn)代 3D 游戲世界。

GCN 5.1 主要用于專業(yè)工作站卡，Radeon VII 本質(zhì)上只不過(guò)是一款權(quán)宜之計(jì)的產(chǎn)品，專為游戲愛(ài)好者而設(shè)計(jì)，而下一代 GPU 正準(zhǔn)備亮相。

僅僅四個(gè)月后，AMD 發(fā)布了長(zhǎng)期運(yùn)行的 GPU 架構(gòu)的繼任者 RDNA。通過(guò)這一新設(shè)計(jì)，AMD 成功解決了 GCN 的大部分故障，第一款采用這種架構(gòu)的顯卡 Radeon RX 5700 XT 清楚地突顯了它比 GCN 更適合游戲。

GPU 的「一小步」

2017 年推出 Ryzen 系列 CPU 時(shí)，采用了新的 Zen 設(shè)計(jì)，買家得到了全新的架構(gòu)，從頭開(kāi)始重新構(gòu)建。RDNA 的情況并非如此，因?yàn)榛靖拍钤诒举|(zhì)上仍然類似于 GCN。然而，幾乎所有內(nèi)部的東西都經(jīng)過(guò)了調(diào)整，使游戲開(kāi)發(fā)者更容易從 GPU 中獲得最大可能的性能。

每個(gè) CU 的 SIMD 計(jì)數(shù)從 4 個(gè)切換到 2 個(gè)，每個(gè) CU 現(xiàn)在處理 32 個(gè)數(shù)據(jù)點(diǎn)，而不是 16 個(gè)。調(diào)度單元現(xiàn)在可以以 32 或 64 的批處理線程，在前者的情況下，SIMD 單元現(xiàn)在可以被發(fā)出，并在每個(gè)周期處理一條指令。

僅這兩個(gè)變化就使開(kāi)發(fā)人員更容易讓 GPU 保持忙碌，盡管這確實(shí)意味著編譯器在選擇正確的波大小進(jìn)行處理時(shí)需要做更多的工作。AMD 為計(jì)算和幾何著色器選擇了 32，為像素著色器選擇了 64，盡管這并不是一成不變的。

CU 現(xiàn)在是成對(duì)分組的（稱為工作組處理器，WGP），而不是四元組，雖然指令和標(biāo)量緩存仍然是共享的，但它們現(xiàn)在只需要為兩個(gè) CU 提供服務(wù)。最初的 16kB L1 緩存被調(diào)整并重新標(biāo)記為 L0，而新的 128kB L1 現(xiàn)在為四個(gè) WGP 提供服務(wù)——兩個(gè) WGP 都具有 128 字節(jié)大小的緩存線（有助于提高內(nèi)部帶寬利用率）。

現(xiàn)在，GPU 的每個(gè)部分都使用了無(wú)損數(shù)據(jù)壓縮，全面降低了延遲，甚至更新了紋理尋址單元。所有這些更改都有助于減少移動(dòng)數(shù)據(jù)、刷新緩存等所浪費(fèi)的時(shí)間。

但也許 RDNA 第一個(gè)版本最令人驚訝的方面不是架構(gòu)上的變化，而是它的第一次迭代是在中端、中等價(jià)位的顯卡上。Radeon RX 5700 XT 中的 Navi 10 芯片并不是一塊巨大的硅片，里面裝有計(jì)算單元，而是只有 251 平方毫米的大小和 40 個(gè) CU。它與 Radeon VII 中的 Vega 20 GPU 在同一臺(tái)積電 N7 工藝節(jié)點(diǎn)上制造，體積小 24%，這對(duì)晶圓產(chǎn)量來(lái)說(shuō)非常好。

然而，它的 CU 也減少了 38%，盡管就晶體管數(shù)量而言，人們不可能指望所有額外的更新和緩存都是免費(fèi)的。但在游戲中測(cè)試時(shí)，它的平均速度僅比 Radeon VII 慢 9%，最重要的是，它便宜了 300 美元。

總的來(lái)說(shuō)，它是新架構(gòu)的一個(gè)有希望的入口，因?yàn)?RDNA 是朝著正確方向邁出的一步，盡管有點(diǎn)小。由于其性能介于 Radeon RX Vega 56 和 Radeon VII 之間，它在速度、功耗和零售價(jià)格之間取得了良好的平衡。

不過(guò)，新 GPU 的推出并非沒(méi)有問(wèn)題，盡管 RDNA 在近 30 種不同的產(chǎn)品中找到了歸宿（通過(guò)三種芯片設(shè)計(jì)變體），但一些人對(duì) AMD 沒(méi)有更強(qiáng)大的產(chǎn)品可供銷售感到失望。

幸運(yùn)的是，他們不用等太久這一問(wèn)題就能被解決。

RDNA 第二輪

Radeon RX 5700 XT 發(fā)布一年多后，當(dāng)世界正在與全球疫情作斗爭(zhēng)時(shí)，AMD 發(fā)布了 RDNA 2。從表面上看，除了兩個(gè)新的東西之外，幾乎沒(méi)有什么變化——紋理單元被升級(jí)，以便它們可以執(zhí)行光線三角形相交測(cè)試，并且添加了額外的最后一級(jí)緩存 (LLC)。

前者是一個(gè)具有成本效益的補(bǔ)充，使 GPU 能夠以最少的額外晶體管數(shù)量處理光線跟蹤，但后者并不是零碎的產(chǎn)品，因?yàn)樗h(yuǎn)不止幾 MB。在 GPU 歷史上，6MB 的 LLC 被認(rèn)為是「大」的，所以當(dāng) AMD 在第一個(gè) RDNA 2 芯片 Navi 21 中硬塞進(jìn) 128MB 時(shí)，它不僅震驚了 GPU 愛(ài)好者，而且永遠(yuǎn)改變了圖形處理器的發(fā)展方向。

雖然由于芯片制造方法的改進(jìn)，處理器變得越來(lái)越快，能力也越來(lái)越強(qiáng)，但 DRAM 卻很難跟上。要使數(shù)十億個(gè)微小的電容器收縮而不出現(xiàn)問(wèn)題要困難得多。不幸的是，GPU 越強(qiáng)大，就需要越多的內(nèi)存帶寬來(lái)保持?jǐn)?shù)據(jù)。

英偉達(dá)選擇采用美光的 GDDR6X 技術(shù)，并在 GPU 上添加大量?jī)?nèi)存接口來(lái)解決這個(gè)問(wèn)題。然而，這種 RAM 比標(biāo)準(zhǔn) GDDR6 更貴，額外的接口只會(huì)使芯片尺寸更大。AMD 的方法是利用其 CPU 部門的緩存技術(shù)，并在其 RDNA2 芯片中注入大量 LLC。

通過(guò)這樣做，對(duì)容納快速 RAM 的寬內(nèi)存總線的需求顯著減少，所有這些都有助于控制 GPU 芯片尺寸和顯卡價(jià)格。芯片尺寸在這里很重要，因?yàn)?Navi 21 本質(zhì)上是兩個(gè) Navi 10（總共 80 個(gè) CU），都被一堵緩存墻包圍。

后者由 103 億個(gè)晶體管組成，而新芯片容納了這個(gè)數(shù)字的兩倍多——268 億個(gè)。額外的 62 億美元主要用于所謂的無(wú)限緩存，盡管還有其他變化。AMD 對(duì)整個(gè)架構(gòu)進(jìn)行了重新調(diào)整和精簡(jiǎn)，使 RDNA 2 芯片能夠以比其前身更高的時(shí)鐘速率運(yùn)行。

當(dāng)然，如果最終產(chǎn)品不好，這些都無(wú)關(guān)緊要。盡管 Radeon RX 6900 XT 的售價(jià)為 1000 美元，但它提供了 GeForce RTX 3090 級(jí)別的性能，價(jià)格比它低 500 美元。它并不總是處于平均水平，根據(jù)所使用的游戲和分辨率，700 美元的 GeForce RTX 3080 也一樣快。

在這個(gè)價(jià)位，AMD 的 Radeon RX 6800 XT 和 RX 6800 分別比 RTX 3080 低 50 美元和 120 美元。6800 和 RTX 3090 的性能相差近 30%，但價(jià)格相差 63%。AMD 可能沒(méi)有贏得性能桂冠，但不可否認(rèn)，在 GPU 價(jià)格無(wú)處不在的時(shí)候，這些產(chǎn)品仍然非常強(qiáng)大，物有所值。

但與此相反的是光線追蹤性能。簡(jiǎn)言之，它遠(yuǎn)不如英偉達(dá)的 Ampere GPU 所實(shí)現(xiàn)的好，盡管考慮到這是 AMD 首次涉足物理正確光建模領(lǐng)域，其功能并不令人驚訝。

英偉達(dá)選擇設(shè)計(jì)和實(shí)現(xiàn)兩個(gè)大型定制 ASIC（專用集成電路），用于處理射線三角形相交和 BVH（邊界體積層次結(jié)構(gòu)）遍歷計(jì)算，AMD 選擇了一種更溫和的方法。對(duì)于后者，將沒(méi)有專門的硬件，通過(guò)計(jì)算單元處理例程。

這個(gè)決定是基于保持模具尺寸盡可能小。Navi 21 芯片相當(dāng)大，面積為 521 平方毫米，雖然英偉達(dá)很樂(lè)意提供更大的處理器（RTX 3090 中的 GA102 面積為 628 平方毫米），但增加定制單元會(huì)使該領(lǐng)域更加突出。

同年 11 月，微軟和索尼發(fā)布了他們的新 Xbox 和 PlayStation 游戲機(jī)，這兩款游戲機(jī)都采用了定制的 AMD GPU（CPU 和 GPU 在同一個(gè)芯片中），它使用 RDNA 2 來(lái)處理圖形方面的問(wèn)題，不包括 Infinity Cache。由于需要保持這些芯片盡可能小，AMD 選擇這一特定路線的原因變得非常清楚。

這一切都是為了改善其圖形部門的財(cái)務(wù)狀況。

資金和利潤(rùn)很重要

在 2021 年下半年之前，AMD 僅將其收入和營(yíng)業(yè)收入數(shù)據(jù)分為兩個(gè)部門：處理器和顯卡，以及企業(yè)、嵌入式和半定制。筆記本電腦中顯卡和獨(dú)立 GPU 的銷售收入流入前者，而 Xbox 和 PlayStation 主機(jī)的 APU 銷售收入流入后者。

下圖是 2018 年第一季度到 2021 年第一季度的營(yíng)業(yè)利潤(rùn)率情況。

RDNA 于 2019 年第二季度推出，但這種銷售的收入要到下個(gè)季度才會(huì)真正開(kāi)始顯現(xiàn)，因?yàn)橹挥袃煞N型號(hào)的顯卡安裝了這種新芯片。我們無(wú)法判斷運(yùn)營(yíng)利潤(rùn)率的增長(zhǎng)是否得益于 GPU 架構(gòu)，因?yàn)檫@些數(shù)據(jù)還包括 CPU 銷售。

然而，從 2021 年第二季度開(kāi)始，AMD 將報(bào)告部門重新劃分為四個(gè)部門:數(shù)據(jù)中心、客戶端、游戲和嵌入式。第三個(gè)部門涵蓋了所有與 GPU 相關(guān)的內(nèi)容，包括最終出現(xiàn)在主機(jī)中的 APU，并且畫面更加清晰。

現(xiàn)在可以看到，AMD 的顯卡部門的利潤(rùn)是四個(gè)部門中最弱的。AMD 曾表示，在 2022 財(cái)年，僅一家客戶就貢獻(xiàn)了該公司全部收入的六分之一，其他人猜測(cè)這家客戶就是索尼。如果情況確實(shí)如此，那么 PlayStation 5 APU 的銷售額就占了游戲行業(yè)收入的 50% 以上。

在那個(gè)財(cái)政年度，獨(dú)立顯卡的發(fā)貨量急劇下降，毫無(wú)疑問(wèn)，該部門的運(yùn)營(yíng)利潤(rùn)率是由游戲機(jī)銷售保持的。AMD 使用臺(tái)積電制造絕大部分芯片，但訂單必須提前幾個(gè)月下——如果處理器在制造后沒(méi)有很快售出，它們必須留在配送中心，這損害了這段時(shí)間的利潤(rùn)率。

目前還沒(méi)有足夠的信息來(lái)判斷 AMD 在 RDNA 上的投資是否盈利，因?yàn)椴豢赡軐?duì) Zen 的投資與數(shù)據(jù)中心和游戲的利潤(rùn)分開(kāi)。但收入數(shù)據(jù)顯示，在以上 6 個(gè)季度中，平均 16 億美元的收入導(dǎo)致了平均 15% 的營(yíng)業(yè)利潤(rùn)率——只有客戶端部門低于這個(gè)數(shù)字，這主要是由于個(gè)人電腦銷售的下滑。

與此同時(shí)，在同一時(shí)期，英偉達(dá)的圖形部門 (包括臺(tái)式機(jī)、筆記本電腦、工作站和汽車等的圖形處理器) 平均每季度收入約為 36 億美元，平均營(yíng)業(yè)利潤(rùn)率為 43%。這家綠色巨頭在獨(dú)立 GPU 市場(chǎng)上的市場(chǎng)份額比 AMD 大，所以更高的收入數(shù)字并不令人驚訝，但營(yíng)業(yè)利潤(rùn)率卻令人大開(kāi)眼界。

大部分 PS5 的 APU 是一個(gè) RDNA2 GPU。來(lái)源：Fritzchen Fritz

但值得考慮的是，AMD 賣給微軟和索尼的 APU 不會(huì)有很大的利潤(rùn)，因?yàn)槿绻麄冇?，你就不可能?400 美元買到一臺(tái)最新的游戲機(jī)了。一體機(jī)芯片的大規(guī)模生產(chǎn)有利于增加收入，但對(duì)直接利潤(rùn)的影響不大。

如果去掉主機(jī)芯片帶來(lái)的收入，假設(shè)它們產(chǎn)生 10% 的利潤(rùn)，這就意味著 RDNA 產(chǎn)生了相當(dāng)多的利潤(rùn)——運(yùn)營(yíng)利潤(rùn)率可能高達(dá) 20%。雖然比不上英偉達(dá)，但我們都知道為什么這家公司的利潤(rùn)率如此之高。

Chiplets 與計(jì)算

對(duì)于 AMD 來(lái)說(shuō)，RDNA 2 無(wú)疑是一個(gè)工程上的成功，該設(shè)計(jì)在近 50 種不同的產(chǎn)品中得到了應(yīng)用。然而，從財(cái)務(wù)角度來(lái)看，與其他領(lǐng)域相比，GPU 一直處于次優(yōu)地位。與此同時(shí)，AMD 發(fā)布了對(duì) RDNA 的首次更新，該公司還宣布了一種新的僅用于計(jì)算的架構(gòu)，稱為 CDNA。

這是 GCN 的哥斯拉，第一個(gè)使用該設(shè)計(jì)的芯片 (Arcturus) 擁有 128 個(gè) CU，在 750 mm2 的芯片中。計(jì)算單元已經(jīng)升級(jí)為專用矩陣單元 (類似于英偉達(dá)的 Tensor)，在接下來(lái)的一年里，AMD 將兩個(gè)巨大的處理器裝進(jìn)了一個(gè) 724 平方毫米的芯片中。它的代號(hào)為 Alderbaran(下圖)，很快成為許多超級(jí)計(jì)算機(jī)項(xiàng)目的首選 GPU。

回到游戲圖形領(lǐng)域，AMD 希望更多地利用其 CPU 專長(zhǎng)。RDNA 2 中的無(wú)限緩存是由于為其 Zen 處理器開(kāi)發(fā)高密度 L3 緩存和無(wú)限 Fabric 互連系統(tǒng)而產(chǎn)生的。

因此，對(duì)于 RDNA 3 來(lái)說(shuō)，很自然地，它將使用另一個(gè) CPU 成功:chiplets。

但是怎么做呢? 在中央處理器中物理分離內(nèi)核要容易得多，因?yàn)樗鼈兺耆?dú)立運(yùn)行。在絕大多數(shù) AMD 的臺(tái)式 PC、工作站和服務(wù)器 cpu 中，你會(huì)發(fā)現(xiàn)至少有兩個(gè)所謂的 chiplets:一個(gè)容納核心 (核心復(fù)雜芯片，CCD)，另一個(gè)容納所有輸入/輸出結(jié)構(gòu) (IOD)。它們之間的主要區(qū)別是 CCD 的數(shù)量。

在 GPU 中做這樣的事情是一項(xiàng)艱巨得多的任務(wù)。Navi 21 GPU 是一個(gè)由四個(gè)獨(dú)立處理器組成的大塊，每個(gè)處理器包含 10 個(gè) WGP、光柵化器、渲染后端和 L1 緩存。有人可能會(huì)認(rèn)為這些將是分離成離散 chiplets 的理想選擇，但是大量數(shù)據(jù)事務(wù)所需的互連系統(tǒng)將抵消任何成本節(jié)約，并增加了許多不必要的復(fù)雜性和功耗。

對(duì)于 RDNA 3, AMD 采取了一種更慎重的方法，一種產(chǎn)生于越來(lái)越小的工藝節(jié)點(diǎn)所面臨的限制。當(dāng)臺(tái)積電等公司宣布一種新的制造工藝時(shí)，通常會(huì)提出更高的性能、更低的功耗和更高的晶體管密度。

然而，后者是一個(gè)整體數(shù)字——晶體管和其他與邏輯和處理相關(guān)的電路當(dāng)然在繼續(xù)縮小，但與信號(hào)和存儲(chǔ)器有關(guān)的任何東西都沒(méi)有縮小。SRAM 使用一組晶體管作為易失性存儲(chǔ)器的一種形式，但這種排列不能像邏輯那樣被壓縮。

隨著 USB、DRAM 等的信號(hào)傳輸速度不斷提高，將這些電路更緊密地封裝在一起會(huì)導(dǎo)致各種干擾問(wèn)題。臺(tái)積電的 N5 工藝節(jié)點(diǎn)的邏輯密度可能比 N7 高 20%，但 SRAM 和 IO 電路只好幾個(gè)百分點(diǎn)。

這就是為什么 AMD 選擇將 VRAM 接口和 L3 無(wú)限緩存推到一個(gè)芯片中，而將 GPU 的其余部分推到另一個(gè)芯片中。前者可以用更便宜、更不先進(jìn)的工藝制造，而后者可以利用更好的東西。

2022 年 11 月，AMD 以 Navi 31 GPU 的形式推出了 RDNA 3。主芯片 (稱為圖形計(jì)算芯片，GCD) 是在臺(tái)積電的 N5 工藝節(jié)點(diǎn)上制造的，包含 96 個(gè)計(jì)算單元，芯片面積僅為 150 平方毫米。圍繞它的是 6 個(gè)內(nèi)存緩存芯片 (MCD)，每個(gè)芯片只有 31mm2 的硅，包括 16MB 的無(wú)限緩存，兩個(gè) 32 位 GDDR6 接口和一個(gè)無(wú)限鏈接系統(tǒng)。

如果 AMD 在 Navi 31 上堅(jiān)持采用單片方法，那么整個(gè)芯片的尺寸可能只有 500 到 540 平方毫米左右，并且不需要在所有 chiplets 之間建立復(fù)雜的連接網(wǎng)絡(luò)，那么將它們?nèi)糠庋b起來(lái)也會(huì)更便宜。

AMD 已經(jīng)為這一切計(jì)劃了很多年，所以它顯然在盈利方面做得很好。這一切都源于晶圓產(chǎn)量和芯片制造成本的增加。讓我們用一些估計(jì)的價(jià)格來(lái)強(qiáng)調(diào)這一點(diǎn)——用于制造 MCD 的單個(gè) N6 晶圓可能是 12,000 美元，但它可以產(chǎn)生超過(guò) 1,500 個(gè)這樣的芯片 (每個(gè)芯片 8 美元)。一塊 1.6 萬(wàn)美元的 N5 晶圓可能生產(chǎn) 150 塊 GCD，每個(gè)晶圓的價(jià)格為 107 美元。

將一張 GCD 與 6 張 MCD 組合在一起，在你需要將它們包裝在一起的成本加進(jìn)去之前，你需要花費(fèi) 154 美元左右。另一方面，來(lái)自 N5 晶圓的單個(gè) 540 mm2 芯片的成本可能在 250 美元左右，因此使用 chiplets 的成本效益是顯而易見(jiàn)的。

前沿與保守變革

與 RDNA 3 小片段的使用一樣大膽，其余的更新則更為保守。寄存器文件以及 L0、L1 和 L2 緩存的大小都增加了，但是 L3 無(wú)限緩存的大小減小了。每個(gè) SIMD 單元擴(kuò)展到同時(shí)處理 64 個(gè)數(shù)據(jù)點(diǎn)，因此 wave64 處理現(xiàn)在是單周期的。

光線追蹤性能得到了適度的提升，通過(guò)調(diào)整單元來(lái)提高光線三角形相交的吞吐量，但在這方面沒(méi)有其他專門的硬件。CDNA 的矩陣單元也沒(méi)有被復(fù)制到 RDNA 上——這樣的操作仍然由計(jì)算單元處理，盡管 RDNA 3 確實(shí)有一個(gè)「人工智能加速器」(AMD 對(duì)這個(gè)單元的功能幾乎沒(méi)有說(shuō))。

新設(shè)計(jì)的處理性能引起了相當(dāng)大的轟動(dòng)，「雙重問(wèn)題」一詞被廣為流傳。當(dāng)使用時(shí)，它允許 SIMD 單元同時(shí)評(píng)估兩條指令，AMD 的營(yíng)銷部門通過(guò)聲明 RDNA 2 的峰值 FP32 吞吐量加倍來(lái)證明這一點(diǎn)。

唯一的問(wèn)題是，執(zhí)行雙重指令的能力嚴(yán)重依賴于編譯器 (將程序代碼轉(zhuǎn)換為 GPU 操作的驅(qū)動(dòng)程序中的程序) 能夠發(fā)現(xiàn)何時(shí)可能發(fā)生這種情況。編譯器在這方面做得并不好，通常需要訓(xùn)練有素的人眼輸入才能獲得最佳結(jié)果。

搭載 RNDA 3 芯片的最強(qiáng)大顯卡是 Radeon RX 7900 XTX，它一上市就受到了好評(píng)，價(jià)格為 1000 美元。雖然通常不如英偉達(dá)的 GeForce RTX 4090 快，但它肯定可以與 RTX 4080 相媲美，從那以后的幾個(gè)月里，AMD 的降價(jià)使它成為一個(gè)更好的選擇。

光線追蹤再一次不是一個(gè)優(yōu)勢(shì)，盡管聲稱提高了電源效率，但許多人對(duì) Navi 31 所需的電量感到驚訝，尤其是在空閑時(shí)。雖然它確實(shí)比以前的 Navi 21 需要更少的功率，但對(duì) Infinity Link 系統(tǒng)的需求部分抵消了使用更好的處理節(jié)點(diǎn)所帶來(lái)的好處。

與 RDNA 2 相比，另一個(gè)不足之處是產(chǎn)品范圍的廣度。在撰寫本文時(shí)，RDNA 3 可以在 18 個(gè)不同的產(chǎn)品中找到，盡管市場(chǎng)狀況可能迫使 AMD 在這件事上采取行動(dòng)。

對(duì)一些人來(lái)說(shuō)，更糟糕的是，當(dāng)中低端 RDNA 3 顯卡最終出現(xiàn)時(shí)，它們相對(duì)于舊設(shè)計(jì)的性能改進(jìn)有些被低估了——以 Radeon RX 7800 XT 為例，它只比即將推出的 RX 6800 XT 快了幾個(gè)百分點(diǎn)。

chiplets 的使用似乎并沒(méi)有給 AMD 的營(yíng)業(yè)利潤(rùn)率帶來(lái)多少好處。在 RDNA 3 出現(xiàn)后的三個(gè)季度中，游戲部門的收入和利潤(rùn)率基本保持不變。當(dāng)然，新的 GPU 實(shí)際上有可能有所改善，因?yàn)槿绻刂婆_(tái) APU 銷量下降，那么財(cái)務(wù)狀況保持不變的唯一途徑似乎是 GPU 變得更有利可圖。

然而，AMD 不再只向微軟和索尼銷售 APU。掌上電腦，如 Valve 的 Steam Deck，越來(lái)越受歡迎，由于所有這些電腦都配備了 AMD 芯片，這些銷售額將為游戲部門的銀行余額做出貢獻(xiàn)。

RDNA 的未來(lái)

如果盤點(diǎn)一下 AMD 在四年時(shí)間里通過(guò) RDNA 所取得的成就，并評(píng)估這些變化的總體成功，最終結(jié)果將從 Bulldozer 和 Zen 之間得出。前者最初對(duì)該公司來(lái)說(shuō)是一場(chǎng)近乎災(zāi)難性的產(chǎn)品，但多年來(lái)因制造成本低廉而挽回了自己。另一方面，Zen 從一開(kāi)始就表現(xiàn)出色，并迫使整個(gè) CPU 市場(chǎng)發(fā)生了翻天覆地的變化。

在這段時(shí)間里，AMD 在獨(dú)立 GPU 領(lǐng)域的市場(chǎng)份額略有波動(dòng)，有時(shí)會(huì)超過(guò)英偉達(dá)，有時(shí)會(huì)失去，但總的來(lái)說(shuō)，它保持不變。

自成立以來(lái)，游戲部門已經(jīng)獲得了少量但穩(wěn)定的利潤(rùn)，盡管利潤(rùn)率目前似乎在下降，但沒(méi)有跡象表明厄運(yùn)即將來(lái)臨。事實(shí)上，僅就利潤(rùn)率而言，這是 AMD 第二好的部門。即使不是這樣，AMD 從嵌入式業(yè)務(wù)中賺取的現(xiàn)金 (多虧了收購(gòu)賽靈思) 也綽綽有余，足以避免任何短期的整體虧損。

但 AMD 接下來(lái)將走向何方?

只有三種前進(jìn)的道路:第一種是保持目前的小架構(gòu)更新進(jìn)程，繼續(xù)積累微薄的利潤(rùn)，并保持整個(gè) GPU 市場(chǎng)的一小部分。第二種是放棄高端桌面 GPU 領(lǐng)域，完全專注于主導(dǎo)預(yù)算和低端市場(chǎng)，專注于進(jìn)一步縮 chiplet 尺寸和提高晶圓產(chǎn)量的技術(shù)。

第三條路線與第二條截然相反——忘記「物有所值」和擁有一個(gè)可以擴(kuò)展到所有可能級(jí)別的架構(gòu)，并盡一切努力確保它是 Radeon 顯卡，而不是 GeForce 顯卡，在每個(gè)性能圖表中都名列前茅。

來(lái)源：Fritzchen Fritz

英偉達(dá)在 RTX 4090 上實(shí)現(xiàn)了這一點(diǎn)，因?yàn)樗褂昧伺_(tái)積電最好的工藝節(jié)點(diǎn)，就著色單元而言，它是能買到的最大的消費(fèi)級(jí) GPU。沒(méi)有什么花哨的把戲——這是一種蠻力的方法，而且效果很好。RTX 4080 中的整個(gè) AD103 芯片僅比 Navi 31 中的 GCD 大 20%，并且具有相當(dāng)相似的性能。

然而，RDNA 一直致力于最大限度地利用現(xiàn)有的處理能力。RDNA 2/3 中緩存系統(tǒng)的復(fù)雜性證明了這一點(diǎn)，因?yàn)橛⑻貭柡陀ミ_(dá)在他們的 GPU 中使用了更簡(jiǎn)單的結(jié)構(gòu)。

說(shuō)到緩存，決定將大量的最后一級(jí)緩存插入 RDNA GPU 以抵消對(duì)超高速 VRAM 的需求，并提高光線追蹤性能，幾乎可以肯定是英偉達(dá)在 Ada Lovelace 架構(gòu)上做同樣事情的靈感。

現(xiàn)在正處于 GPU 發(fā)展的一個(gè)階段，不同廠商設(shè)計(jì)圖形處理器的差異相對(duì)較小，僅從架構(gòu)設(shè)計(jì)就能看到性能的巨大改進(jìn)的日子已經(jīng)一去不復(fù)返了。

未來(lái)的 RDNA GPU 會(huì)像英特爾的 Ponte Vecchio 一樣多的芯片嗎?

如果 AMD 想要獨(dú)占鰲頭，它就需要推出一款擁有比我們目前看到的更多計(jì)算單元的 RDNA GPU?；蛘咧皇歉心芰Φ摹猂DNA 3 中 SIMD 單元的變化可能是一個(gè)信號(hào)，表明在下一個(gè)版本中，我們可能會(huì)看到 CU 使用四個(gè) SIMD 而不是兩個(gè)，以消除所有的雙重發(fā)行限制。

但即便如此，AMD 仍需要擁有更多的 CU，而實(shí)現(xiàn)這一目標(biāo)的唯一途徑是擁有更大的 GCD，這意味著接受更低的產(chǎn)量或?qū)⑿酒D(zhuǎn)移到更好的工藝節(jié)點(diǎn)上。當(dāng)然，這兩項(xiàng)都會(huì)影響利潤(rùn)率，而且與英偉達(dá)不同，AMD 似乎不愿將 GPU 價(jià)格推高。

它也不太可能采取第二條路線，因?yàn)橐坏┩瓿闪诉@一點(diǎn)，就幾乎沒(méi)有機(jī)會(huì)回來(lái)了。GPU 的歷史上有很多公司嘗試過(guò)，失敗過(guò)，一旦他們停止了在高端市場(chǎng)的競(jìng)爭(zhēng)，就永遠(yuǎn)消失了。

這就剩下了一個(gè)選擇——繼續(xù)當(dāng)前的行動(dòng)方針。在架構(gòu)方面，英偉達(dá)已經(jīng)對(duì)其著色器內(nèi)核進(jìn)行了多年的重制，只有過(guò)去兩代才顯示出許多相似之處。它還在開(kāi)發(fā)和營(yíng)銷機(jī)器學(xué)習(xí)和光線追蹤功能方面投入了大量資源，前者與 GeForce 品牌有著獨(dú)特的聯(lián)系。

AMD 多年來(lái)開(kāi)發(fā)了許多技術(shù)，但在 RDNA 時(shí)代，它們都沒(méi)有特別要求 Radeon 顯卡來(lái)使用它們。憑借其 Zen 架構(gòu)和其他 CPU 發(fā)明，AMD 將計(jì)算世界帶入了未來(lái)，迫使英特爾提高其游戲水平。它為大眾帶來(lái)了高能效的多線程處理——不是通過(guò)成為英特爾的廉價(jià)替代品，而是通過(guò)競(jìng)爭(zhēng)。勝利，迎頭而上。

不可否認(rèn)，RDNA 是一個(gè)成功的設(shè)計(jì)，因?yàn)樗氖褂檬侨绱藦V泛，但它肯定不是 Zen。如果游戲行業(yè)想要發(fā)展的話，僅僅做到物有所值或者以開(kāi)源方式獲得社區(qū)的喜愛(ài)是不夠的。AMD 似乎擁有實(shí)現(xiàn)這一目標(biāo)的所有工程技術(shù)和訣竅;他們是否會(huì)冒險(xiǎn)完全是另一回事。

俗話說(shuō)，幸運(yùn)眷顧勇者。