<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計算 > 市場分析 > 深度分析AMD游戲GPU架構(gòu)的成功與優(yōu)點

          深度分析AMD游戲GPU架構(gòu)的成功與優(yōu)點

          作者:techspot 時間:2023-11-21 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

          2019 年, 推出了一款新的 GPU 架構(gòu),這是該公司七年來首次推出主要的圖形芯片設(shè)計。自首次亮相以來,該架構(gòu)經(jīng)歷了兩次修訂,強(qiáng)調(diào)了 chiplet 和緩存在渲染領(lǐng)域的重要性。鑒于這些發(fā)展,評估 憑借其工程能力所取得的成就并考慮每次更新的影響是有意義的。

          本文引用地址:http://www.ex-cimer.com/article/202311/453142.htm

          我們將探索這項技術(shù),評估其在游戲中的表現(xiàn),并研究其對 的財務(wù)影響。

          是否像 Zen 一樣取得了巨大的成功? 或者,各種各樣的修改是否會給 AMD 帶來另一個「Bulldozer」時刻? 讓我們來看看。

          為什么 GCN 需要改變

          目前 AMD 的 GPU 分為兩個截然不同的產(chǎn)品領(lǐng)域,一個是針對游戲的,另一個是用于超級計算機(jī)、大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)系統(tǒng)的。

          然而,它們都有著相同的傳統(tǒng)——一種被稱為 Graphics Core Next(GCN)的架構(gòu)。它首次出現(xiàn)于 2012 年,盡管在此過程中進(jìn)行了一些重大修改,但仍使用了近 10 年。GCN 是對其前身 TeraScale 的徹底改革,從一開始,它就被設(shè)計為具有高度可擴(kuò)展性,在圖形和通用計算(GPGPU)應(yīng)用中同樣適用。

          縮放是處理單元組合在一起的方式。從 GCN 的最初版本到最終版本,GPU 的基礎(chǔ)由 4 個計算單元 (CU) 組成。

          每個處理器都包含 4 個 SIMD(單指令,多數(shù)據(jù)) 矢量單元,在 16 個數(shù)據(jù)點上執(zhí)行數(shù)學(xué)運(yùn)算,大小為 32 位,還有一個標(biāo)量單元用于基于整數(shù)的邏輯運(yùn)算。

          每個矢量 SIMD 都有一個 64 kB 的寄存器文件,所有四個單元共享一個 64 kB 的暫存塊 (稱為本地數(shù)據(jù)共享,LDS),所有處理單元共享一個 16 kB 的 L1 數(shù)據(jù)緩存。四組 CU 共享一個 16 kB 的標(biāo)量緩存和一個 32 kB 的指令緩存,所有這些緩存都鏈接到一個 GPU 級的 L2 緩存。

          到 2018 年 GCN 5.1 發(fā)布時,這些都沒有太大變化,盡管對緩存層次結(jié)構(gòu)的操作方式進(jìn)行了多次改進(jìn)。然而,對于游戲世界來說,GCN 有一些明顯的缺點,但可以總結(jié)為,對于開發(fā)者來說,從芯片中獲得處理吞吐量和帶寬利用率方面的最佳性能是一個挑戰(zhàn)。

          例如,GPU 以 64 個線程為一組 (每個線程稱為一個波或波前) 進(jìn)行調(diào)度,每個 SIMD 單元可以使用不同的波發(fā)出,最多排隊 10 個深度。然而,指令的發(fā)布率是每 4 個周期 1 次,因此為了確保單元保持繁忙,需要調(diào)度大量線程——這在計算世界中是可以實現(xiàn)的,而在游戲中則不然。

          GCN 的第一個版本擁有稱為異步計算引擎(ACE)的硬件結(jié)構(gòu)。當(dāng)涉及到在 3D 游戲中的渲染幀時,GPU 會由排在長隊列中的系統(tǒng)發(fā)出命令。然而,它們并不都需要按照嚴(yán)格的線性順序完成,這就是 ACE 發(fā)揮作用的地方。

          基于 GCN 的 GPU 基本上可以將隊列分成三種不同的類型 (分別用于圖形命令、計算工作和數(shù)據(jù)事務(wù)),然后相應(yīng)地對它們進(jìn)行調(diào)度。然而,當(dāng)時 Direct3D API 對該系統(tǒng)沒有太多支持,盡管 2015 年 Direct3D 12 發(fā)布后,異步著色就風(fēng)靡一時。AMD 利用了這一點,使 GCN 更加專注于計算。

          這一點從 AMD 在高端游戲顯卡市場推出的最新產(chǎn)品——售價 700 美元的 Radeon VII(見下圖) 中可以明顯看出。它在 4096 位寬總線上擁有 60 個 cu(完整芯片有 64 個 cu) 和 16gb HBM2 內(nèi)存,絕對是一個 GPU 怪物。

          與同樣售價 700 美元的 GeForce RTX 2080 相比,它在某些游戲中可能會更快,但大多數(shù)基準(zhǔn)測試結(jié)果表明,該架構(gòu)并不適合現(xiàn)代 3D 游戲世界。

          GCN 5.1 主要用于專業(yè)工作站卡,Radeon VII 本質(zhì)上只不過是一款權(quán)宜之計的產(chǎn)品,專為游戲愛好者而設(shè)計,而下一代 GPU 正準(zhǔn)備亮相。

          僅僅四個月后,AMD 發(fā)布了長期運(yùn)行的 GPU 架構(gòu)的繼任者 。通過這一新設(shè)計,AMD 成功解決了 GCN 的大部分故障,第一款采用這種架構(gòu)的顯卡 Radeon RX 5700 XT 清楚地突顯了它比 GCN 更適合游戲。

          GPU 的「一小步」

          2017 年推出 Ryzen 系列 CPU 時,采用了新的 Zen 設(shè)計,買家得到了全新的架構(gòu),從頭開始重新構(gòu)建。 的情況并非如此,因為基本概念在本質(zhì)上仍然類似于 GCN。然而,幾乎所有內(nèi)部的東西都經(jīng)過了調(diào)整,使游戲開發(fā)者更容易從 GPU 中獲得最大可能的性能。

          每個 CU 的 SIMD 計數(shù)從 4 個切換到 2 個,每個 CU 現(xiàn)在處理 32 個數(shù)據(jù)點,而不是 16 個。調(diào)度單元現(xiàn)在可以以 32 或 64 的批處理線程,在前者的情況下,SIMD 單元現(xiàn)在可以被發(fā)出,并在每個周期處理一條指令。

          僅這兩個變化就使開發(fā)人員更容易讓 GPU 保持忙碌,盡管這確實意味著編譯器在選擇正確的波大小進(jìn)行處理時需要做更多的工作。AMD 為計算和幾何著色器選擇了 32,為像素著色器選擇了 64,盡管這并不是一成不變的。

          CU 現(xiàn)在是成對分組的(稱為工作組處理器,WGP),而不是四元組,雖然指令和標(biāo)量緩存仍然是共享的,但它們現(xiàn)在只需要為兩個 CU 提供服務(wù)。最初的 16kB L1 緩存被調(diào)整并重新標(biāo)記為 L0,而新的 128kB L1 現(xiàn)在為四個 WGP 提供服務(wù)——兩個 WGP 都具有 128 字節(jié)大小的緩存線(有助于提高內(nèi)部帶寬利用率)。

          現(xiàn)在,GPU 的每個部分都使用了無損數(shù)據(jù)壓縮,全面降低了延遲,甚至更新了紋理尋址單元。所有這些更改都有助于減少移動數(shù)據(jù)、刷新緩存等所浪費(fèi)的時間。

          但也許 RDNA 第一個版本最令人驚訝的方面不是架構(gòu)上的變化,而是它的第一次迭代是在中端、中等價位的顯卡上。Radeon RX 5700 XT 中的 Navi 10 芯片并不是一塊巨大的硅片,里面裝有計算單元,而是只有 251 平方毫米的大小和 40 個 CU。它與 Radeon VII 中的 Vega 20 GPU 在同一臺積電 N7 工藝節(jié)點上制造,體積小 24%,這對晶圓產(chǎn)量來說非常好。

          然而,它的 CU 也減少了 38%,盡管就晶體管數(shù)量而言,人們不可能指望所有額外的更新和緩存都是免費(fèi)的。但在游戲中測試時,它的平均速度僅比 Radeon VII 慢 9%,最重要的是,它便宜了 300 美元。

          總的來說,它是新架構(gòu)的一個有希望的入口,因為 RDNA 是朝著正確方向邁出的一步,盡管有點小。由于其性能介于 Radeon RX Vega 56 和 Radeon VII 之間,它在速度、功耗和零售價格之間取得了良好的平衡。

          不過,新 GPU 的推出并非沒有問題,盡管 RDNA 在近 30 種不同的產(chǎn)品中找到了歸宿(通過三種芯片設(shè)計變體),但一些人對 AMD 沒有更強(qiáng)大的產(chǎn)品可供銷售感到失望。

          幸運(yùn)的是,他們不用等太久這一問題就能被解決。

          RDNA 第二輪

          Radeon RX 5700 XT 發(fā)布一年多后,當(dāng)世界正在與全球疫情作斗爭時,AMD 發(fā)布了 RDNA 2。從表面上看,除了兩個新的東西之外,幾乎沒有什么變化——紋理單元被升級,以便它們可以執(zhí)行光線三角形相交測試,并且添加了額外的最后一級緩存 (LLC)。

          前者是一個具有成本效益的補(bǔ)充,使 GPU 能夠以最少的額外晶體管數(shù)量處理光線跟蹤,但后者并不是零碎的產(chǎn)品,因為它遠(yuǎn)不止幾 MB。在 GPU 歷史上,6MB 的 LLC 被認(rèn)為是「大」的,所以當(dāng) AMD 在第一個 RDNA 2 芯片 Navi 21 中硬塞進(jìn) 128MB 時,它不僅震驚了 GPU 愛好者,而且永遠(yuǎn)改變了圖形處理器的發(fā)展方向。

          雖然由于芯片制造方法的改進(jìn),處理器變得越來越快,能力也越來越強(qiáng),但 DRAM 卻很難跟上。要使數(shù)十億個微小的電容器收縮而不出現(xiàn)問題要困難得多。不幸的是,GPU 越強(qiáng)大,就需要越多的內(nèi)存帶寬來保持?jǐn)?shù)據(jù)。

          英偉達(dá)選擇采用美光的 GDDR6X 技術(shù),并在 GPU 上添加大量內(nèi)存接口來解決這個問題。然而,這種 RAM 比標(biāo)準(zhǔn) GDDR6 更貴,額外的接口只會使芯片尺寸更大。AMD 的方法是利用其 CPU 部門的緩存技術(shù),并在其 RDNA2 芯片中注入大量 LLC。

          通過這樣做,對容納快速 RAM 的寬內(nèi)存總線的需求顯著減少,所有這些都有助于控制 GPU 芯片尺寸和顯卡價格。芯片尺寸在這里很重要,因為 Navi 21 本質(zhì)上是兩個 Navi 10(總共 80 個 CU),都被一堵緩存墻包圍。

          后者由 103 億個晶體管組成,而新芯片容納了這個數(shù)字的兩倍多——268 億個。額外的 62 億美元主要用于所謂的無限緩存,盡管還有其他變化。AMD 對整個架構(gòu)進(jìn)行了重新調(diào)整和精簡,使 RDNA 2 芯片能夠以比其前身更高的時鐘速率運(yùn)行。

          當(dāng)然,如果最終產(chǎn)品不好,這些都無關(guān)緊要。盡管 Radeon RX 6900 XT 的售價為 1000 美元,但它提供了 GeForce RTX 3090 級別的性能,價格比它低 500 美元。它并不總是處于平均水平,根據(jù)所使用的游戲和分辨率,700 美元的 GeForce RTX 3080 也一樣快。

          在這個價位,AMD 的 Radeon RX 6800 XT 和 RX 6800 分別比 RTX 3080 低 50 美元和 120 美元。6800 和 RTX 3090 的性能相差近 30%,但價格相差 63%。AMD 可能沒有贏得性能桂冠,但不可否認(rèn),在 GPU 價格無處不在的時候,這些產(chǎn)品仍然非常強(qiáng)大,物有所值。

          但與此相反的是光線追蹤性能。簡言之,它遠(yuǎn)不如英偉達(dá)的 Ampere GPU 所實現(xiàn)的好,盡管考慮到這是 AMD 首次涉足物理正確光建模領(lǐng)域,其功能并不令人驚訝。

          英偉達(dá)選擇設(shè)計和實現(xiàn)兩個大型定制 ASIC(專用集成電路),用于處理射線三角形相交和 BVH(邊界體積層次結(jié)構(gòu))遍歷計算,AMD 選擇了一種更溫和的方法。對于后者,將沒有專門的硬件,通過計算單元處理例程。

          這個決定是基于保持模具尺寸盡可能小。Navi 21 芯片相當(dāng)大,面積為 521 平方毫米,雖然英偉達(dá)很樂意提供更大的處理器(RTX 3090 中的 GA102 面積為 628 平方毫米),但增加定制單元會使該領(lǐng)域更加突出。

          同年 11 月,微軟和索尼發(fā)布了他們的新 Xbox 和 PlayStation 游戲機(jī),這兩款游戲機(jī)都采用了定制的 AMD GPU(CPU 和 GPU 在同一個芯片中),它使用 RDNA 2 來處理圖形方面的問題,不包括 Infinity Cache。由于需要保持這些芯片盡可能小,AMD 選擇這一特定路線的原因變得非常清楚。

          這一切都是為了改善其圖形部門的財務(wù)狀況。

          資金和利潤很重要

          在 2021 年下半年之前,AMD 僅將其收入和營業(yè)收入數(shù)據(jù)分為兩個部門:處理器和顯卡,以及企業(yè)、嵌入式和半定制。筆記本電腦中顯卡和獨(dú)立 GPU 的銷售收入流入前者,而 Xbox 和 PlayStation 主機(jī)的 APU 銷售收入流入后者。

          下圖是 2018 年第一季度到 2021 年第一季度的營業(yè)利潤率情況。

          RDNA 于 2019 年第二季度推出,但這種銷售的收入要到下個季度才會真正開始顯現(xiàn),因為只有兩種型號的顯卡安裝了這種新芯片。我們無法判斷運(yùn)營利潤率的增長是否得益于 GPU 架構(gòu),因為這些數(shù)據(jù)還包括 CPU 銷售。

          然而,從 2021 年第二季度開始,AMD 將報告部門重新劃分為四個部門:數(shù)據(jù)中心、客戶端、游戲和嵌入式。第三個部門涵蓋了所有與 GPU 相關(guān)的內(nèi)容,包括最終出現(xiàn)在主機(jī)中的 APU,并且畫面更加清晰。

          現(xiàn)在可以看到,AMD 的顯卡部門的利潤是四個部門中最弱的。AMD 曾表示,在 2022 財年,僅一家客戶就貢獻(xiàn)了該公司全部收入的六分之一,其他人猜測這家客戶就是索尼。如果情況確實如此,那么 PlayStation 5 APU 的銷售額就占了游戲行業(yè)收入的 50% 以上。

          在那個財政年度,獨(dú)立顯卡的發(fā)貨量急劇下降,毫無疑問,該部門的運(yùn)營利潤率是由游戲機(jī)銷售保持的。AMD 使用臺積電制造絕大部分芯片,但訂單必須提前幾個月下——如果處理器在制造后沒有很快售出,它們必須留在配送中心,這損害了這段時間的利潤率。

          目前還沒有足夠的信息來判斷 AMD 在 RDNA 上的投資是否盈利,因為不可能將對 Zen 的投資與數(shù)據(jù)中心和游戲的利潤分開。但收入數(shù)據(jù)顯示,在以上 6 個季度中,平均 16 億美元的收入導(dǎo)致了平均 15% 的營業(yè)利潤率——只有客戶端部門低于這個數(shù)字,這主要是由于個人電腦銷售的下滑。

          與此同時,在同一時期,英偉達(dá)的圖形部門 (包括臺式機(jī)、筆記本電腦、工作站和汽車等的圖形處理器) 平均每季度收入約為 36 億美元,平均營業(yè)利潤率為 43%。這家綠色巨頭在獨(dú)立 GPU 市場上的市場份額比 AMD 大,所以更高的收入數(shù)字并不令人驚訝,但營業(yè)利潤率卻令人大開眼界。

          大部分 PS5 的 APU 是一個 RDNA2 GPU。來源:Fritzchen Fritz

          但值得考慮的是,AMD 賣給微軟和索尼的 APU 不會有很大的利潤,因為如果他們有,你就不可能花 400 美元買到一臺最新的游戲機(jī)了。一體機(jī)芯片的大規(guī)模生產(chǎn)有利于增加收入,但對直接利潤的影響不大。

          如果去掉主機(jī)芯片帶來的收入,假設(shè)它們產(chǎn)生 10% 的利潤,這就意味著 RDNA 產(chǎn)生了相當(dāng)多的利潤——運(yùn)營利潤率可能高達(dá) 20%。雖然比不上英偉達(dá),但我們都知道為什么這家公司的利潤率如此之高。

          Chiplets 與計算

          對于 AMD 來說,RDNA 2 無疑是一個工程上的成功,該設(shè)計在近 50 種不同的產(chǎn)品中得到了應(yīng)用。然而,從財務(wù)角度來看,與其他領(lǐng)域相比,GPU 一直處于次優(yōu)地位。與此同時,AMD 發(fā)布了對 RDNA 的首次更新,該公司還宣布了一種新的僅用于計算的架構(gòu),稱為 CDNA。

          這是 GCN 的哥斯拉,第一個使用該設(shè)計的芯片 (Arcturus) 擁有 128 個 CU,在 750 mm2 的芯片中。計算單元已經(jīng)升級為專用矩陣單元 (類似于英偉達(dá)的 Tensor),在接下來的一年里,AMD 將兩個巨大的處理器裝進(jìn)了一個 724 平方毫米的芯片中。它的代號為 Alderbaran(下圖),很快成為許多超級計算機(jī)項目的首選 GPU。

          回到游戲圖形領(lǐng)域,AMD 希望更多地利用其 CPU 專長。RDNA 2 中的無限緩存是由于為其 Zen 處理器開發(fā)高密度 L3 緩存和無限 Fabric 互連系統(tǒng)而產(chǎn)生的。

          因此,對于 RDNA 3 來說,很自然地,它將使用另一個 CPU 成功:chiplets。

          但是怎么做呢? 在中央處理器中物理分離內(nèi)核要容易得多,因為它們完全獨(dú)立運(yùn)行。在絕大多數(shù) AMD 的臺式 PC、工作站和服務(wù)器 cpu 中,你會發(fā)現(xiàn)至少有兩個所謂的 chiplets:一個容納核心 (核心復(fù)雜芯片,CCD),另一個容納所有輸入/輸出結(jié)構(gòu) (IOD)。它們之間的主要區(qū)別是 CCD 的數(shù)量。

          在 GPU 中做這樣的事情是一項艱巨得多的任務(wù)。Navi 21 GPU 是一個由四個獨(dú)立處理器組成的大塊,每個處理器包含 10 個 WGP、光柵化器、渲染后端和 L1 緩存。有人可能會認(rèn)為這些將是分離成離散 chiplets 的理想選擇,但是大量數(shù)據(jù)事務(wù)所需的互連系統(tǒng)將抵消任何成本節(jié)約,并增加了許多不必要的復(fù)雜性和功耗。

          對于 RDNA 3, AMD 采取了一種更慎重的方法,一種產(chǎn)生于越來越小的工藝節(jié)點所面臨的限制。當(dāng)臺積電等公司宣布一種新的制造工藝時,通常會提出更高的性能、更低的功耗和更高的晶體管密度。

          然而,后者是一個整體數(shù)字——晶體管和其他與邏輯和處理相關(guān)的電路當(dāng)然在繼續(xù)縮小,但與信號和存儲器有關(guān)的任何東西都沒有縮小。SRAM 使用一組晶體管作為易失性存儲器的一種形式,但這種排列不能像邏輯那樣被壓縮。

          隨著 USB、DRAM 等的信號傳輸速度不斷提高,將這些電路更緊密地封裝在一起會導(dǎo)致各種干擾問題。臺積電的 N5 工藝節(jié)點的邏輯密度可能比 N7 高 20%,但 SRAM 和 IO 電路只好幾個百分點。

          這就是為什么 AMD 選擇將 VRAM 接口和 L3 無限緩存推到一個芯片中,而將 GPU 的其余部分推到另一個芯片中。前者可以用更便宜、更不先進(jìn)的工藝制造,而后者可以利用更好的東西。

          2022 年 11 月,AMD 以 Navi 31 GPU 的形式推出了 RDNA 3。主芯片 (稱為圖形計算芯片,GCD) 是在臺積電的 N5 工藝節(jié)點上制造的,包含 96 個計算單元,芯片面積僅為 150 平方毫米。圍繞它的是 6 個內(nèi)存緩存芯片 (MCD),每個芯片只有 31mm2 的硅,包括 16MB 的無限緩存,兩個 32 位 GDDR6 接口和一個無限鏈接系統(tǒng)。

          如果 AMD 在 Navi 31 上堅持采用單片方法,那么整個芯片的尺寸可能只有 500 到 540 平方毫米左右,并且不需要在所有 chiplets 之間建立復(fù)雜的連接網(wǎng)絡(luò),那么將它們?nèi)糠庋b起來也會更便宜。

          AMD 已經(jīng)為這一切計劃了很多年,所以它顯然在盈利方面做得很好。這一切都源于晶圓產(chǎn)量和芯片制造成本的增加。讓我們用一些估計的價格來強(qiáng)調(diào)這一點——用于制造 MCD 的單個 N6 晶圓可能是 12,000 美元,但它可以產(chǎn)生超過 1,500 個這樣的芯片 (每個芯片 8 美元)。一塊 1.6 萬美元的 N5 晶圓可能生產(chǎn) 150 塊 GCD,每個晶圓的價格為 107 美元。

          將一張 GCD 與 6 張 MCD 組合在一起,在你需要將它們包裝在一起的成本加進(jìn)去之前,你需要花費(fèi) 154 美元左右。另一方面,來自 N5 晶圓的單個 540 mm2 芯片的成本可能在 250 美元左右,因此使用 chiplets 的成本效益是顯而易見的。

          前沿與保守變革

          與 RDNA 3 小片段的使用一樣大膽,其余的更新則更為保守。寄存器文件以及 L0、L1 和 L2 緩存的大小都增加了,但是 L3 無限緩存的大小減小了。每個 SIMD 單元擴(kuò)展到同時處理 64 個數(shù)據(jù)點,因此 wave64 處理現(xiàn)在是單周期的。

          光線追蹤性能得到了適度的提升,通過調(diào)整單元來提高光線三角形相交的吞吐量,但在這方面沒有其他專門的硬件。CDNA 的矩陣單元也沒有被復(fù)制到 RDNA 上——這樣的操作仍然由計算單元處理,盡管 RDNA 3 確實有一個「人工智能加速器」(AMD 對這個單元的功能幾乎沒有說)。

          新設(shè)計的處理性能引起了相當(dāng)大的轟動,「雙重問題」一詞被廣為流傳。當(dāng)使用時,它允許 SIMD 單元同時評估兩條指令,AMD 的營銷部門通過聲明 RDNA 2 的峰值 FP32 吞吐量加倍來證明這一點。

          唯一的問題是,執(zhí)行雙重指令的能力嚴(yán)重依賴于編譯器 (將程序代碼轉(zhuǎn)換為 GPU 操作的驅(qū)動程序中的程序) 能夠發(fā)現(xiàn)何時可能發(fā)生這種情況。編譯器在這方面做得并不好,通常需要訓(xùn)練有素的人眼輸入才能獲得最佳結(jié)果。

          搭載 RNDA 3 芯片的最強(qiáng)大顯卡是 Radeon RX 7900 XTX,它一上市就受到了好評,價格為 1000 美元。雖然通常不如英偉達(dá)的 GeForce RTX 4090 快,但它肯定可以與 RTX 4080 相媲美,從那以后的幾個月里,AMD 的降價使它成為一個更好的選擇。

          光線追蹤再一次不是一個優(yōu)勢,盡管聲稱提高了電源效率,但許多人對 Navi 31 所需的電量感到驚訝,尤其是在空閑時。雖然它確實比以前的 Navi 21 需要更少的功率,但對 Infinity Link 系統(tǒng)的需求部分抵消了使用更好的處理節(jié)點所帶來的好處。

          與 RDNA 2 相比,另一個不足之處是產(chǎn)品范圍的廣度。在撰寫本文時,RDNA 3 可以在 18 個不同的產(chǎn)品中找到,盡管市場狀況可能迫使 AMD 在這件事上采取行動。

          對一些人來說,更糟糕的是,當(dāng)中低端 RDNA 3 顯卡最終出現(xiàn)時,它們相對于舊設(shè)計的性能改進(jìn)有些被低估了——以 Radeon RX 7800 XT 為例,它只比即將推出的 RX 6800 XT 快了幾個百分點。

          chiplets 的使用似乎并沒有給 AMD 的營業(yè)利潤率帶來多少好處。在 RDNA 3 出現(xiàn)后的三個季度中,游戲部門的收入和利潤率基本保持不變。當(dāng)然,新的 GPU 實際上有可能有所改善,因為如果控制臺 APU 銷量下降,那么財務(wù)狀況保持不變的唯一途徑似乎是 GPU 變得更有利可圖。

          然而,AMD 不再只向微軟和索尼銷售 APU。掌上電腦,如 Valve 的 Steam Deck,越來越受歡迎,由于所有這些電腦都配備了 AMD 芯片,這些銷售額將為游戲部門的銀行余額做出貢獻(xiàn)。

          RDNA 的未來

          如果盤點一下 AMD 在四年時間里通過 RDNA 所取得的成就,并評估這些變化的總體成功,最終結(jié)果將從 Bulldozer 和 Zen 之間得出。前者最初對該公司來說是一場近乎災(zāi)難性的產(chǎn)品,但多年來因制造成本低廉而挽回了自己。另一方面,Zen 從一開始就表現(xiàn)出色,并迫使整個 CPU 市場發(fā)生了翻天覆地的變化。

          在這段時間里,AMD 在獨(dú)立 GPU 領(lǐng)域的市場份額略有波動,有時會超過英偉達(dá),有時會失去,但總的來說,它保持不變。

          自成立以來,游戲部門已經(jīng)獲得了少量但穩(wěn)定的利潤,盡管利潤率目前似乎在下降,但沒有跡象表明厄運(yùn)即將來臨。事實上,僅就利潤率而言,這是 AMD 第二好的部門。即使不是這樣,AMD 從嵌入式業(yè)務(wù)中賺取的現(xiàn)金 (多虧了收購賽靈思) 也綽綽有余,足以避免任何短期的整體虧損。

          但 AMD 接下來將走向何方?

          只有三種前進(jìn)的道路:第一種是保持目前的小架構(gòu)更新進(jìn)程,繼續(xù)積累微薄的利潤,并保持整個 GPU 市場的一小部分。第二種是放棄高端桌面 GPU 領(lǐng)域,完全專注于主導(dǎo)預(yù)算和低端市場,專注于進(jìn)一步縮 chiplet 尺寸和提高晶圓產(chǎn)量的技術(shù)。

          第三條路線與第二條截然相反——忘記「物有所值」和擁有一個可以擴(kuò)展到所有可能級別的架構(gòu),并盡一切努力確保它是 Radeon 顯卡,而不是 GeForce 顯卡,在每個性能圖表中都名列前茅。

          來源:Fritzchen Fritz

          英偉達(dá)在 RTX 4090 上實現(xiàn)了這一點,因為它使用了臺積電最好的工藝節(jié)點,就著色單元而言,它是能買到的最大的消費(fèi)級 GPU。沒有什么花哨的把戲——這是一種蠻力的方法,而且效果很好。RTX 4080 中的整個 AD103 芯片僅比 Navi 31 中的 GCD 大 20%,并且具有相當(dāng)相似的性能。

          然而,RDNA 一直致力于最大限度地利用現(xiàn)有的處理能力。RDNA 2/3 中緩存系統(tǒng)的復(fù)雜性證明了這一點,因為英特爾和英偉達(dá)在他們的 GPU 中使用了更簡單的結(jié)構(gòu)。

          說到緩存,決定將大量的最后一級緩存插入 RDNA GPU 以抵消對超高速 VRAM 的需求,并提高光線追蹤性能,幾乎可以肯定是英偉達(dá)在 Ada Lovelace 架構(gòu)上做同樣事情的靈感。

          現(xiàn)在正處于 GPU 發(fā)展的一個階段,不同廠商設(shè)計圖形處理器的差異相對較小,僅從架構(gòu)設(shè)計就能看到性能的巨大改進(jìn)的日子已經(jīng)一去不復(fù)返了。

          未來的 RDNA GPU 會像英特爾的 Ponte Vecchio 一樣多的芯片嗎?

          如果 AMD 想要獨(dú)占鰲頭,它就需要推出一款擁有比我們目前看到的更多計算單元的 RDNA GPU?;蛘咧皇歉心芰Φ摹猂DNA 3 中 SIMD 單元的變化可能是一個信號,表明在下一個版本中,我們可能會看到 CU 使用四個 SIMD 而不是兩個,以消除所有的雙重發(fā)行限制。

          但即便如此,AMD 仍需要擁有更多的 CU,而實現(xiàn)這一目標(biāo)的唯一途徑是擁有更大的 GCD,這意味著接受更低的產(chǎn)量或?qū)⑿酒D(zhuǎn)移到更好的工藝節(jié)點上。當(dāng)然,這兩項都會影響利潤率,而且與英偉達(dá)不同,AMD 似乎不愿將 GPU 價格推高。

          它也不太可能采取第二條路線,因為一旦完成了這一點,就幾乎沒有機(jī)會回來了。GPU 的歷史上有很多公司嘗試過,失敗過,一旦他們停止了在高端市場的競爭,就永遠(yuǎn)消失了。

          這就剩下了一個選擇——繼續(xù)當(dāng)前的行動方針。在架構(gòu)方面,英偉達(dá)已經(jīng)對其著色器內(nèi)核進(jìn)行了多年的重制,只有過去兩代才顯示出許多相似之處。它還在開發(fā)和營銷機(jī)器學(xué)習(xí)和光線追蹤功能方面投入了大量資源,前者與 GeForce 品牌有著獨(dú)特的聯(lián)系。

          AMD 多年來開發(fā)了許多技術(shù),但在 RDNA 時代,它們都沒有特別要求 Radeon 顯卡來使用它們。憑借其 Zen 架構(gòu)和其他 CPU 發(fā)明,AMD 將計算世界帶入了未來,迫使英特爾提高其游戲水平。它為大眾帶來了高能效的多線程處理——不是通過成為英特爾的廉價替代品,而是通過競爭。勝利,迎頭而上。

          不可否認(rèn),RDNA 是一個成功的設(shè)計,因為它的使用是如此廣泛,但它肯定不是 Zen。如果游戲行業(yè)想要發(fā)展的話,僅僅做到物有所值或者以開源方式獲得社區(qū)的喜愛是不夠的。AMD 似乎擁有實現(xiàn)這一目標(biāo)的所有工程技術(shù)和訣竅;他們是否會冒險完全是另一回事。

          俗話說,幸運(yùn)眷顧勇者。



          關(guān)鍵詞: AMD RDNA

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();