芯片設(shè)計中,DRAM 類型的選擇正在變復(fù)雜
芯片制造商開始將多種類型和風(fēng)格的 DRAM 整合到同一個先進封裝中,為日益分布式的內(nèi)存但更加復(fù)雜的設(shè)計奠定了基礎(chǔ)。盡管多年來預(yù)測 DRAM 將被其他類型的內(nèi)存取代,但它仍然是幾乎所有計算中的重要組成部分。它的足跡非但沒有消失,反而在增加,選擇的數(shù)量也在增加。
本文引用地址:http://www.ex-cimer.com/article/202311/452949.htm有幾個因素推動了這種擴張。
首先,系統(tǒng)中計算元素的數(shù)量和密度不斷增加,以更快地處理更多數(shù)據(jù),特別是對于人工智能/機器學(xué)習(xí)和數(shù)據(jù)中心應(yīng)用程序。更多的核心需要更多的內(nèi)存,因為需要有一個地方來存儲數(shù)據(jù)并處理數(shù)據(jù)。
其次,通常情況下,大部分數(shù)據(jù)都會在緩存中處理,而 SRAM 一直是 L1 到 L3 緩存的首選內(nèi)存。但 SRAM 的擴展速度不再與數(shù)字邏輯相同。因此,它在芯片上占用了更大的空間,并且 DRAM 速度的提高使得某些類型適合 L3 緩存。
最后,來回移動數(shù)據(jù)移動受到帶寬和距離的限制,因此僅在一個物理位置添加更多內(nèi)存并不一定會提高性能。事實上,它可能會起到相反的作用。
由于這些原因,芯片制造商正在使用更多的 DRAM。在某些情況下,DRAM(尤其是 HBM)正在取代一些 SRAM。DRAM 擁有久經(jīng)考驗的耐用性記錄以及成熟的工藝,而且比 SRAM 便宜得多。Objective Analysis 總經(jīng)理 Jim Handy 表示,根據(jù)原始數(shù)據(jù),相同容量的 SRAM 成本可能比 DRAM 高出 2,500 倍以上,具體取決于 DRAM 的類型。
當然,DRAM 有多種類型可供選擇。有些速度非???,如 HBM,但也很昂貴。其他類型速度較慢,但價格便宜,如基本的 DDR DIMM。然而,變化的是,在異構(gòu)架構(gòu)中,兩者都可以發(fā)揮重要作用,以及多種其他 DRAM 類型和更狹義的存儲器,如 MRAM 或 ReRAM。
「我們正在考慮更多的混合模型,在同一系統(tǒng)中使用不同的 DRAM 技術(shù),」Cadence 高級技術(shù)營銷經(jīng)理 Kos Gitchev 說?!溉绻_實需要非常高的性能,并且愿意為此付費,那么您可能會選擇 HBM。您可以將其用于 L3 緩存,或者您需要立即訪問的任何其他內(nèi)容。如果您仍然需要更多內(nèi)存,但延遲稍長,則可以在 RDIMM(注冊雙列直插內(nèi)存模塊)或 MRDIMM(多路復(fù)用器級 DIMM)中使用 DRAM。如果您正在尋找大容量,那么您可能會考慮 CXL 后面的 DRAM。該技術(shù)開始針對非常具體的應(yīng)用程序,具有真正的高帶寬和低功耗、更大的內(nèi)存占用,但延遲稍多。將所有這些混合在一起是每個人解決這些問題的方向?!?/span>
與先進節(jié)點或先進封裝的幾乎每一項改進一樣,解決一個問題可能會導(dǎo)致另一個問題。盡管如此,基本理論是合理的,并且當今市場上也有證據(jù)。例如,保持某些功能(例如人工智能)以最大速度運行可能至關(guān)重要,這將使高帶寬內(nèi)存成為最佳選擇。但并非所有功能都是必需的,并且它們并不都需要這種級別的性能。在某些情況下,GDDR5 或 GDDR6 可能就足夠了。在其他情況下,可能是 LPDDR,在其他情況下可能是 DDR4。所有這些都有不同的成本,這些成本可以用來回移動數(shù)據(jù)的資源以及存儲芯片的貨幣價值來衡量。
另一方面,并不是所有的 DRAM 都是一樣的,在沒有充分了解不同類型的 DRAM 會如何影響其他組件的情況下,僅添加不同類型的 DRAM 可能會導(dǎo)致問題。重要的是要以避免未來問題的方式將它們集成起來,這包括復(fù)雜的布局規(guī)劃,以避免信號完整性和防止熱問題。眾所周知,DRAM 和散熱不太好。但也有一堆以前從未認真考慮過的新問題。
「DRAM 向前發(fā)展的重大問題分為兩類——常見的問題(更多的帶寬和容量、管理功率)和一些新的問題(更具挑戰(zhàn)性的可靠性,這導(dǎo)致了片上 ECC 和 RowHammer 保護等問題),」Rambus 的杰出發(fā)明家 Steven Woo 說道。「為了應(yīng)對新的挑戰(zhàn),在芯片上放置更多的電容器會增加片上錯誤的發(fā)生,因此今天的 DRAM 在數(shù)據(jù)返回到控制器之前會進行一定量的片上錯誤糾正。像 RowHammer 這樣的相鄰單元干擾問題的發(fā)生是因為這些單元彼此非常接近,訪問一組單元可能會導(dǎo)致鄰近單元的位翻轉(zhuǎn)?!?/span>
什么地方最有效
選擇的數(shù)量不斷增加,也讓我們很難決定使用哪些存儲器。通常根據(jù)性能、功耗、成本、可靠性(糾錯碼以及經(jīng)過全面測試和供應(yīng)鏈安全)和容量來選擇 DRAM。因此,如果 DRAM 將用于 L3 緩存,則可能需要高性能和低功耗。如果要用于高級封裝中的低級功能,則它可能是標準 DIMM。
但這些選擇中的每一個也會影響整體芯片或系統(tǒng)級封裝設(shè)計,并伴隨著特定的設(shè)計考慮。
「過去,DDR4 和 LPDDR4 并沒有那么復(fù)雜,」Synopsys 產(chǎn)品營銷高級經(jīng)理 Graham Allan 表示?!敢粋€客戶將啟用 DDR4,另一個客戶將啟用 LPDDR4,并且存在重疊。隨著我們進入 DDR5 和 LPDDR5 及更高版本,這些應(yīng)用空間確實發(fā)生了分化,接口協(xié)議和物理信令也發(fā)生了變化。DDR5 通常需要與大量 DRAM(大容量)通信,因此您主要與寄存器 DIMM 連接。使用 LPDDR,您通常會與一個封裝或設(shè)備通信,并且該設(shè)備中最多有兩個負載。LPDDR 也是接地端接的。DDR 端接到正電壓軌。這些是非常不同的物理接口和協(xié)議,這意味著客戶需要選擇其中之一?!?/span>
還有一些中間選項可以幫助在多個應(yīng)用程序中使用相同的設(shè)計。例如,MRDIMM 可用于將容量加倍或?qū)捈颖?,具體取決于工作負載?!付嗦窂?fù)用器級 DIMM 的容量和速度是 SDRAM(同步 DRAM)的兩倍,」Allan 說?!杆拿烂钪幵谟?DRAM 不會改變。它以兩種不同的模式運行。它的運行方式類似于負載減少的 DIMM,但速度不會加倍。這將是一種使用它來獲得更高容量的模式?;蛘咚远嗦窂?fù)用排序模式運行,這使得 DRAM 和外部接口之間的帶寬加倍?!?/span>
這是圖片的一部分。另一部分是 PHY,即物理層,它提供與內(nèi)存的物理接口。PHY 因所使用的 DRAM 類型而異,隨著數(shù)據(jù)量的增加和設(shè)計變得越來越異構(gòu),它們變得尤為重要。
PHY 還可以鏈接在一起形成一種主堆棧,以便管理復(fù)雜設(shè)備中的內(nèi)存資源,無論是 GDDR6 還是 LPDDR4。這樣,所有類型的 DRAM 都可以被視為可用資源并進行集中管理。
「通過某種類型的結(jié)構(gòu)來管理帶寬,所有內(nèi)容都是可見且可尋址的,」瑞薩電子基礎(chǔ)設(shè)施業(yè)務(wù)部公司副總裁兼總經(jīng)理 Balaji Kanigicherla 說道?!高@不僅僅是提高密度或存儲器的物理原理,這是材料科學(xué)。存儲器的應(yīng)用架構(gòu)是產(chǎn)業(yè)發(fā)展的方向。密度需要提高,因為您希望在相同的帶寬下獲得更多的容量。我們可以根據(jù)每美元或每 GB 的路徑進行混合和匹配,并且可以在 SSD、DRAM 和本地片上 SRAM 緩存之間使用分層。這正在轉(zhuǎn)向整個系統(tǒng)的 TCO,并考慮我們將為每一層支付的成本?!?/span>
這本質(zhì)上提高了內(nèi)存管理的抽象級別。Kanigicherla 表示:「您可以從當前模型發(fā)展到在全球范圍內(nèi)解決內(nèi)存問題,并基本上創(chuàng)建足夠有效的互連來管理緩存或減少延遲。」「這就像全局可尋址內(nèi)存的一個分區(qū)。顯然,您需要提供帶寬。但好消息是,對于人工智能工作負載,它們對延遲的敏感度稍低,對帶寬的敏感度更高。所以你可以利用這項技術(shù)來擴大規(guī)模。在 CXL 和 UCIe 之間,應(yīng)該有一種更漸進的方法來分解存儲器,可能包括光學(xué)互連,并實現(xiàn)存儲器的完整全局視圖。但這需要整個行業(yè)的努力才能實現(xiàn)。這并不簡單。」
內(nèi)存池是另一種選擇,并且在數(shù)據(jù)中心中越來越受歡迎。內(nèi)存池對于 DRAM 的作用就像超擴展對于處理器核心的作用一樣。當需要額外的內(nèi)存時,可以像使用額外的計算核心一樣使用它,通常是通過 CXL 接口。
Rambus 說:「池化背后的想法是,如果我有一組服務(wù)器,并且每臺服務(wù)器都有內(nèi)存,那么每臺服務(wù)器不太可能同時使用所有內(nèi)存容量。」Woo 最近在 CASPA 活動中的一次演講中說道。「更有意義的是將其中一些容量放入外部機箱中,并將其視為池資源。當處理器需要的內(nèi)存超過機箱內(nèi)的內(nèi)存時,它們可以在短時間內(nèi)檢查并配置一些內(nèi)存,將其用于計算,然后將其返回到池中。這是讓很多業(yè)內(nèi)人士興奮不已的新功能之一。更遠一點,一旦你做了這些類型的事情,你就可以開始考慮通過交換機附加內(nèi)存和池。CXL 標準還允許多級切換。這種靈活性將有助于提高各種應(yīng)用程序的性能和總擁有成本?!?/span>
其他存儲方法
除了更傳統(tǒng)的方法之外,DRAM 還向多種方向發(fā)展。部分原因是轉(zhuǎn)向異構(gòu)集成和高級封裝以及更多特定領(lǐng)域的設(shè)計,部分原因是更接近數(shù)據(jù)源進行處理的好處。
「與計算和 DRAM 相比,我們使用 17% 的能量進行計算,并使用 63% 的能量將數(shù)據(jù)從一個點移動到另一個點,」Siemens Digital Industries Software 的內(nèi)存技術(shù)專家 Jongsin Yun 說道。「這是大量的能量。我們可以節(jié)省這一點并提高速度和電源效率。當前的解決方案是向緩存中添加更多內(nèi)存,但這是一個昂貴的解決方案。我們不需要將所有數(shù)據(jù)移動到 DRAM。我們可以在內(nèi)存中進行一些計算,或者使用一些基于 GPU 的 AI 卷積,這樣我們就可以在不進行內(nèi)存?zhèn)鬏數(shù)那闆r下進行計算?!?/span>
今天的選擇比以往任何時候都多,而且還有更多的選擇處于開發(fā)階段。例如,華邦電子開發(fā)了幾種基于 DRAM 的內(nèi)存解決方案,但超越了經(jīng)典的 DRAM 使用模型。一是該公司的單芯片 CUBE(定制超帶寬元件)架構(gòu)。另一種是偽靜態(tài) DRAM,它介于 SRAM 和 DRAM 之間,無需外部數(shù)據(jù)重寫。這兩者都針對特定市場,例如可穿戴設(shè)備和邊緣服務(wù)器。
「現(xiàn)在最熱門的話題是生成式人工智能,」華邦電子美國公司營銷主管 CS Lin 說。「但是數(shù)據(jù)中心發(fā)生的情況與我們關(guān)注的地方有不同的要求,而且密度也有很大不同。我們專注于 16 GB/秒及以下的密度,但該解決方案可擴展到 256 KB/秒。它的運行速度非常接近 HBM2 帶寬,但具有功耗極低的優(yōu)勢。」
CUBE 方法,延遲約為 25 納秒,單位密度比 14 納米 SRAM 高 5 倍。來源:華邦電子
Lin 表示,這種方法的好處是能夠使用標準 DRAM 來提高性能,而不是依賴最先進的工藝節(jié)點。通常,較高的密度會產(chǎn)生延遲,但 CUBE 架構(gòu)使用數(shù)千個硅通孔來移動數(shù)據(jù),并根據(jù)更多帶寬或更高速度的需求靈活分配這些通孔。這允許更細粒度的系統(tǒng)架構(gòu),以及更小的占地面積。
另一種方法是均衡。這個計劃已經(jīng)醞釀了一段時間,但似乎終于獲得了關(guān)注。「均衡可以改善您在通道末端接收到的數(shù)據(jù),」Synopsys 的 Allan 解釋道?!负唵蝸碚f,這就像符號間干擾。當一系列比特通過通道傳輸時,當一個比特完成時,它實際上已經(jīng)進入下一個比特的時域。信號上升和下降以及從 1 到 0 的切換需要比一個單位間隔更長的時間。你并不是從穩(wěn)定的低潛力狀態(tài)開始的。你是從一個更高的狀態(tài)開始的。使用決策反饋均衡來偏移輸入接收器中的采樣點。那么我現(xiàn)在如何優(yōu)化我的輸入接收器,以便對一和零檢測具有相似的余量?我并沒有真正感覺到有什么東西可以將參考電壓精確地放在中間。」
內(nèi)存計算也即將出現(xiàn)。雖然已經(jīng)有幾種使用 MRAM 的商業(yè)方法,但普林斯頓大學(xué)的研究人員在 2019 年的一篇論文中展示了 FPGA 中的外部 DRAM 控制器,可以與現(xiàn)成的 DRAM 一起使用來創(chuàng)建大規(guī)模并行計算。研究人員聲稱,這種方法克服了所謂的內(nèi)存墻,即邏輯性能已經(jīng)超過了內(nèi)存帶寬。
權(quán)衡
那么,與 DRAM 相比,SRAM 的使用量是多少?對此沒有簡單的公式,因為這不是同類比較。
Flex Logix 首席技術(shù)官兼聯(lián)合創(chuàng)始人 Cheng Wang 表示:「確實沒有什么神奇的方法可以做到這一點?!刮覀兊拇蟛糠衷O(shè)計權(quán)衡來自于對 SRAM 帶寬、SRAM 容量和 DRAM 帶寬進行建模的性能估計。這是我們的三個主要旋鈕。基本上,我們有四種標準的計算規(guī)模,為我們的標準 IP 產(chǎn)品提供不同數(shù)量的 SRAM 和 DRAM 帶寬。這是基于我們運行模型的經(jīng)驗數(shù)據(jù)來確定哪種效果更好。如果我們有 2 倍的 SRAM 容量,某些模型可以運行得更好。如果您可以通過將 SRAM 加倍來使性能幾乎翻倍,并且再用 20% 的面積來實現(xiàn) 2 倍的性能,那就太好了。但還有很多其他型號無法從額外的 SRAM 中受益,那么您就白白添加了該區(qū)域。這就是為什么進行周期準確的性能估計很重要。在我們的例子中,它的精確度不能精確到單個周期,但可以精確到 8%,這超出了我們的需要。然后,您可以對適當?shù)?SRAM/DRAM 計算權(quán)衡進行大量架構(gòu)分析,這可能因工作負載類型而異。」
這是復(fù)雜的數(shù)學(xué),并且隨著系統(tǒng)被分解為異構(gòu)元素(例如小芯片),它變得更加復(fù)雜?!窼RAM 每一位需要更多晶體管才能實現(xiàn)。它比 DRAM 密度更低、更昂貴,并且在讀取和寫入過程中具有更高的功耗。」Ansys 首席產(chǎn)品經(jīng)理 Takeo Tomine 說道。「目前,SRAM 是在 CPU 通常設(shè)計的先進 finFET 技術(shù)節(jié)點上設(shè)計的,而 finFET 器件由于器件的熱阻較高,更容易產(chǎn)生熱效應(yīng)(自熱)?!?/span>
在某些情況下,使用什么類型的內(nèi)存以及在何處使用它可能取決于設(shè)備的預(yù)期使用壽命。「有兩個主要的可靠性問題會導(dǎo)致存儲器的壽命縮短,」Tomine 說?!钙渲兄皇?,互連可靠性與技術(shù)節(jié)點縮小會導(dǎo)致存儲器的使用壽命縮短,因為自熱會導(dǎo)致嚴重的電遷移(EM),這是最關(guān)鍵的可靠性問題之一。材料和工藝技術(shù)以及技術(shù)擴展不斷提高電磁壽命。其次是不同架構(gòu)的設(shè)備帶來的可靠性挑戰(zhàn)。在將器件架構(gòu)從 finFET 轉(zhuǎn)移到納米片再到 CFET 的過程中,熱阻急劇增加,這意味著器件通道的 Delta T 值更高。器件自熱將與金屬焦耳熱耦合。器件的自熱會影響柵極氧化物擊穿(時間相關(guān)的電介質(zhì)擊穿),并且還會降低 HCI(熱載流子注入)性能,從而使器件的 BTI(偏置溫度不穩(wěn)定性)惡化。」
可靠性是衡量存儲設(shè)備在給定時間內(nèi)無故障運行的能力的指標。智能手機的預(yù)期壽命為 4 年,而汽車、軍事或金融服務(wù)器應(yīng)用的預(yù)期壽命為 10 至 15 年(或更長),這一時間范圍可能非常不同。能夠理解可能影響存儲器壽命的潛在相互作用至關(guān)重要,它們可能因架構(gòu)、存儲器類型和使用情況而異。
這也會影響使用哪種內(nèi)存以及整個系統(tǒng)架構(gòu)。因此,如果記憶可以被替換,那么與將這些記憶嵌入某種類型的高級封裝中并密封起來相比,壽命就不那么重要了。「這就像擁有一個 DRAM 卡池,現(xiàn)在就可以升級,」瑞薩電子的 Kanigicherla 說道。「使用 HBM,如果出現(xiàn)問題,你將無能為力,因此你將扔掉非常昂貴的芯片。在 CPU 方面,服務(wù)器之間的聯(lián)系非常緊密,你無法做太多的事情來升級任何東西。這就是全局共享內(nèi)存概念起作用的原因。其中一些解決方案是自動出現(xiàn)的?!?/span>
延遲增加了另一個權(quán)衡?!柑貏e是使用 HBM,可以將處理器和 DRAM 非常緊密地結(jié)合在一起,」Cadence IP 集團產(chǎn)品營銷總監(jiān) Frank Ferro 說道。「這樣做有很多好處。HBM 一直在快速發(fā)展。我們幾乎每兩年就會看到性能的改進。所以這條曲線很陡。但從系統(tǒng)設(shè)計的角度來看,2.5D 仍然是一個挑戰(zhàn)。優(yōu)化中介層并幫助客戶設(shè)計這確實是對話的關(guān)鍵部分。」
結(jié)論
自 1967 年發(fā)明以來,DRAM 一直是計算的關(guān)鍵。盡管多年來無數(shù)存儲技術(shù)對其提出了挑戰(zhàn),但沒有任何技術(shù)可以取代它。鑒于圍繞這項技術(shù)的狂熱活動,在可預(yù)見的未來沒有任何東西可以取代它。
DRAM 現(xiàn)在不再是一種類型,而是有多種類型,并且每種類型都在不斷發(fā)展并催生新的想法。從內(nèi)存到處理元件的物理連接,到服務(wù)器機架外部的內(nèi)存池,各個層面都有創(chuàng)新。目前正在努力縮短信號在內(nèi)存和處理器內(nèi)核之間傳輸?shù)木嚯x,這將減少移動數(shù)據(jù)所需的功耗以及每個周期所需的時間。
從長遠來看,DRAM 仍然是一個充滿活力和創(chuàng)新的領(lǐng)域,并且即將出現(xiàn)更多的創(chuàng)新和不同的方式來組合內(nèi)存解決方案,這些解決方案可以對性能、成本、可靠性和壽命產(chǎn)生重大影響。
評論