<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 網(wǎng)絡(luò)與存儲 > 市場分析 > 對內(nèi)存的重新思考

          對內(nèi)存的重新思考

          作者:Semiconductor Engineering 時間:2024-02-19 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

          Semiconductor Engineering 與 Cadence 產(chǎn)品管理部門集團總監(jiān) Frank Ferro 討論了日益異構(gòu)的系統(tǒng)中的發(fā)展之路。參與討論的還有:Rambus 的研究員和杰出發(fā)明家 Steven Woo;西門子 EDA 的技術(shù)專家 Jongsin Yun;是德科技解決方案項目經(jīng)理 Randy White;以及 Arteris 解決方案和業(yè)務(wù)發(fā)展副總裁 Frank Schirrmeister。以下是這次談話的摘錄。

          本文引用地址:http://www.ex-cimer.com/article/202402/455474.htm

          SE:在我們努力處理 AI/ML 和能源需求時,哪些配置需要重新思考?我們是否會看到從馮諾依曼結(jié)構(gòu)向其他結(jié)構(gòu)的轉(zhuǎn)變?

          Woo:關(guān)于系統(tǒng)架構(gòu),業(yè)界正在發(fā)生分歧。我們在基于 x86 的服務(wù)器上運行的傳統(tǒng)應(yīng)用程序負載著主要的工作,還不會消失。已經(jīng)建立和發(fā)展了幾十年的軟件依賴于該架構(gòu)才能發(fā)揮良好的性能。相比之下,AI/ML 屬于一個新的類別。人們已經(jīng)重新思考了架構(gòu),并構(gòu)建了非常特定于領(lǐng)域的處理器。我們看到大約三分之二的能量用于處理器與 (High Bandwidth Memory,高帶寬存儲器)之間移動數(shù)據(jù),而僅有約三分之一的能量消耗在實際訪問 DRAM 核心的數(shù)據(jù)位上。如今,數(shù)據(jù)遷移變得更具挑戰(zhàn)性且成本更高。我們不會擺脫內(nèi)存。隨著數(shù)據(jù)集的不斷擴大,我們需要內(nèi)存。因此,問題是,「未來正確的發(fā)展方向是什么?」關(guān)于堆疊有很多討論。如果我們將存儲器直接放在處理器的頂部,它會完成兩件事。首先,今天的帶寬受限于芯片外圍或邊緣,那是 I/O(輸入輸出)的位置。但是,如果將存儲器直接堆疊在處理器頂部,現(xiàn)在您可以將芯片的整個區(qū)域用于分布式互連,并且可以獲得更多存儲器本身的帶寬,它可以直接輸入到處理器中,鏈路變得更短了,功率效率可能提高 5 倍至 6 倍。其次,由于更多區(qū)域陣列互連到存儲器,可獲得的帶寬也會提高數(shù)倍。將這兩者結(jié)合起來可以提供更多帶寬并提高功率效率。行業(yè)的發(fā)展需要滿足各種需求,這肯定是未來我們會看到存儲系統(tǒng)開始發(fā)展的方式之一,以使其變得更節(jié)能并提供更多帶寬。

          Ferro:當(dāng)我大約在 2016 年開始研究 時,一些思想先進的客戶詢問是否可以將其堆疊。他們已經(jīng)研究了一段時間如何在頂部堆疊 DRAM,因為這樣具有明顯的優(yōu)勢。從物理層來看,PHY 基本上可以忽略不計,這可以節(jié)省大量的能源和效率。但是現(xiàn)在,在頂部有存儲器的處理器功率已經(jīng)達到幾百瓦。存儲器無法承受熱量。它可能是熱鏈中最薄弱的環(huán)節(jié),這又帶來了另一個挑戰(zhàn)。雖然有一定的好處,但仍然需要找出如何處理熱量的問題?,F(xiàn)在有更多動力推動這種新架構(gòu)的發(fā)展,因為它在性能和功耗方面確實節(jié)省了總體成本,并提高了計算效率。但是還有一些物理設(shè)計挑戰(zhàn)需要解決。正如 Steve 所說,「我們看到了各種各樣的新架構(gòu)」。我完全同意 GPU/CPU 架構(gòu)不會消失,并且仍將占據(jù)主導(dǎo)地位。與此同時,全球每個公司都試圖為他們的 AI 找到更好的方案。我們看到了片上 SRAM 和 的組合。如今,LPDDR 在數(shù)據(jù)中心中的應(yīng)用日漸增多,原因是功耗問題。我們甚至看到 GDDR 被用于一些 AI 推理應(yīng)用,以及其他所有的舊內(nèi)存系統(tǒng)?,F(xiàn)在他們試圖盡可能在一個指定面積內(nèi)擠壓 DDR5。我已經(jīng)看過你能想到的所有架構(gòu),無論是 DDR、HBM、GDDR 還是其他架構(gòu)。這取決于你的處理器核心,你的整體附加值是多少,然后如何突破你特定的架構(gòu)。與之相關(guān)的內(nèi)存系統(tǒng),這樣你就可以根據(jù)可用的內(nèi)容設(shè)計出 CPU 和存儲器架構(gòu)。

          Yun:另一個問題是非易失性。例如,如果 AI 必須處理物聯(lián)網(wǎng)(IoT)基礎(chǔ)設(shè)施中運行的 AI 的電力間隔問題,那么我們就需要不斷地關(guān)閉和啟動電源,所有這些用于 AI 訓(xùn)練的信息都需要反復(fù)傳輸。如果我們有某種解決方案可以將這些權(quán)重數(shù)據(jù)存儲到芯片中,我們就不必總是為相同的權(quán)重進行來回調(diào)整,那么它將為特別是基于物聯(lián)網(wǎng)的 AI 節(jié)省大量的電力。還會有其他解決方案來幫助滿足這些電力需求。

          Schirrmeister:從 NoC(片上網(wǎng)絡(luò))的角度來看,我覺得非常有趣的是,你必須優(yōu)化從處理器通過 NoC 訪問存儲器接口的路徑,處理器可能通過 UCIe 將一個小芯片傳遞給另一個小芯片,這個小芯片中包含存儲器。馮諾依曼架構(gòu)并非已經(jīng)消失。但現(xiàn)在有很多不同的變體,取決于你想計算的工作負載。它們需要在內(nèi)存的背景下進行考慮,而這只是一個方面。數(shù)據(jù)在 DRAM 中如何安排?我們正在處理所有這些問題,比如存儲器的性能分析,然后優(yōu)化系統(tǒng)架構(gòu)。這激發(fā)了很多新架構(gòu)的創(chuàng)新,這是我在大學(xué)學(xué)習(xí)馮諾依曼架構(gòu)時從未想過的。在另一端的極端,你會看到類似于網(wǎng)格的東西?,F(xiàn)在有更多的架構(gòu)需要在其中進行考慮,這是由存儲器帶寬、計算能力等不以相同速度增長所驅(qū)動的。

          White:有一種趨勢涉及到分解計算或分布式計算,這意味著架構(gòu)師需要具備更多的工具。內(nèi)存層次結(jié)構(gòu)已經(jīng)擴展了,語義也被納入考慮,還有 CXL(Compute Express Link)和不同的混合存儲器,這些混合存儲器可用于閃存和 DRAM 中。數(shù)據(jù)中心的一個并行應(yīng)用是汽車行業(yè)。汽車一直具有傳感器計算和 ECU(電子控制單元)。我對它是如何演變到數(shù)據(jù)中心感到非常好奇。快進到今天,我們有分布式計算節(jié)點,稱為域控制器。這與以往相同。它試圖解決這樣一個問題,即由于計算機的規(guī)模沒有那么大,功率可能不是一個大問題,但延遲對于汽車來說肯定是一個大問題。ADAS(高級駕駛輔助系統(tǒng))需要超高帶寬,你會遇到不同的需要權(quán)衡的問題。你會有更多的機械傳感器,但在數(shù)據(jù)中心有類似的限制。你可以擁有不需要低延遲的冷存儲,還有其他高帶寬應(yīng)用??吹郊軜?gòu)師的工具和選擇是如何發(fā)展的,這確實令人著迷。行業(yè)在應(yīng)對這些問題方面做得非常好,我們所有人都提供各種解決方案以滿足市場需求。

          SE:內(nèi)存設(shè)計工具是如何發(fā)展的?

          Schirrmeister:當(dāng)我在 90 年代開始做我的第一批芯片時,最常用的系統(tǒng)工具是 Excel。從那時開始,我一直希望它能在某一點上系統(tǒng)級、內(nèi)存、帶寬分析等方面有所突破。這對我的團隊影響很大。那時候這是非常先進的東西。但是,正如 Randy 所說,現(xiàn)在某些復(fù)雜的事物需要以之前在計算機上不可能實現(xiàn)的保真度進行模擬。舉一個例子,DRAM 訪問的某個延遲可能導(dǎo)致錯誤的架構(gòu)決策,并可能錯誤地設(shè)計片上數(shù)據(jù)傳輸架構(gòu)。從另一方面看也是這樣的。如果你總是假設(shè)最壞的情況,那么你將過度設(shè)計架構(gòu)。讓工具執(zhí)行 DRAM 和性能分析,并為控制器提供合適的模型,可以讓架構(gòu)師模擬所有這些,這是一個令人著迷的環(huán)境。我從 90 年代就希望 Excel 作為一個系統(tǒng)級工具在某一天會失效,這個夢想可能會成真,因為某些動態(tài)效果你無法再在 Excel 中實現(xiàn),你需要模擬它們,特別是當(dāng)您引入具有 PHY 特性的芯片間接口時,以及其他鏈路層特性,比如檢查數(shù)據(jù)是否都正確并可能重新發(fā)送數(shù)據(jù)。不進行這些模擬將導(dǎo)致次優(yōu)的架構(gòu)。

          Ferro:我們進行的大多數(shù)評估的第一步是提供內(nèi)存測試臺,讓他們開始檢查 DRAM 的效率。即使是執(zhí)行像運行本地工具進行 DRAM 仿真的簡單操作(但接下來會進入全面的仿真模擬),這也是一個巨大的步驟。我們發(fā)現(xiàn)越來越多的客戶要求進行這種類型的仿真。確保 DRAM 效率保持在 90% 以上是任何評估的非常重要的第一步。

          Woo:全系統(tǒng)仿真工具興起的部分原因是,DRAM 變得越來越復(fù)雜?,F(xiàn)在,使用 Excel 等簡單工具處理一些復(fù)雜的工作負載非常困難。如果你回顧 90 年代 DRAM 的數(shù)據(jù)表,可以發(fā)現(xiàn)那些數(shù)據(jù)表只有 40 頁左右?,F(xiàn)在,它們有數(shù)百頁。這說明了為了獲得高帶寬輸出,設(shè)備的復(fù)雜性急劇上升。再加上內(nèi)存在系統(tǒng)成本方面是驅(qū)動力,以及與處理器性能相關(guān)的帶寬和延遲。內(nèi)存也是功耗的一個重要驅(qū)動因素,因此現(xiàn)在你需要進行更詳細的仿真模擬。在工具流方面,系統(tǒng)架構(gòu)師了解內(nèi)存是一個巨大的驅(qū)動力。因此,工具需要更加復(fù)雜,并且需要與其他工具很好地配合,以便系統(tǒng)架構(gòu)師能夠獲得最佳全局視角,了解正在發(fā)生的情況——特別是內(nèi)存如何影響系統(tǒng)。

          Yun:隨著我們進入 AI 時代,使用了很多多核系統(tǒng),但我們不知道哪些數(shù)據(jù)放在哪里。芯片也越來越與其并行。內(nèi)存的大小要大得多。如果我們使用 ChatGPT 類型的 AI,那么模型的數(shù)據(jù)處理需要大約 350MB 的數(shù)據(jù),僅作為權(quán)重就是大量的數(shù)據(jù),實際的輸入/輸出則更大得多。所需數(shù)據(jù)量的增加意味著有很多我們以前沒見過的概率效應(yīng)。觀察與這大量內(nèi)存相關(guān)的所有錯誤是一項極具挑戰(zhàn)性的測試。ECC(糾錯碼)已廣泛應(yīng)用,甚至在 SRAM(靜態(tài)隨機存取存儲器)中也應(yīng)用了 ECC,盡管傳統(tǒng)上 SRAM 并未使用 ECC,但現(xiàn)在在大型系統(tǒng)中非常常見。測試所有這些非常具有挑戰(zhàn)性,并需要由 EDA 解決方案提供支持,以測試所有這些不同的條件。

          SE:工程團隊日常面臨哪些挑戰(zhàn)?

          White:在任何一天,你都會發(fā)現(xiàn)我在實驗室。我卷起袖子,弄臟雙手,戳線,焊接等等。我經(jīng)常思考關(guān)于硅后驗證的問題。我們討論了早期模擬和片上工具——BiST(內(nèi)建自檢)等。歸根結(jié)底,在出貨前,我們要進行某種形式的系統(tǒng)驗證或設(shè)備級測試。我們討論如何克服內(nèi)存墻。我們將內(nèi)存、HBM 等進行了共同定位?;仡櫡庋b技術(shù)的演變,我們從鉛封裝開始。它們不能很好地保證信號完整性。幾十年后,我們轉(zhuǎn)向優(yōu)化信號完整性,如球柵陣列(BGAs)。但我們無法訪問它,這意味著無法對其進行測試。因此,我們提出了一種稱為設(shè)備中介層(BGA 中介層)的概念,并允許我們在特殊夾具之間進行信號的層疊和外接。然后我們可以將其連接到測試設(shè)備??爝M到今天,現(xiàn)在我們有了 HBM 和芯片。對于硅中介層之間的夾具,該如何層疊安裝?我們無法做到,這確實是一個難題。這是一個讓我徹夜難眠的挑戰(zhàn)。當(dāng) OEM 或系統(tǒng)客戶不能獲得 90% 的效率時,如何在現(xiàn)場進行故障分析?鏈路中存在更多的錯誤,它們無法正確初始化,訓(xùn)練無法正常進行。這是系統(tǒng)完整性問題嗎?

          Schirrmeister:與其去實驗室,你難道不更愿意在家使用虛擬界面完成這些工作嗎?解決方案難道不是將更多分析技術(shù)構(gòu)建到芯片中嗎?通過芯片,我們將所有組件進一步集成在一起。將焊接鐵放在這個地方并不現(xiàn)實,因此需要一種片上分析的方法。我們在 NoC 上也面臨著同樣的問題。人們查看 NoC,你發(fā)送數(shù)據(jù)后它們就消失了。我們需要將分析添加到其中,以便人們可以進行調(diào)試,并將這種分析擴展到制造水平,這樣你最終就可以在家中通過芯片分析方法完成所有工作。

          Ferro:尤其是在有高帶寬存儲器的情況下,你無法從物理上進入其中。當(dāng)我們授權(quán) PHY 時,我們還會提供一個與之搭配的產(chǎn)品,以便你可以關(guān)注其中的每一位數(shù)據(jù)(共 1024 位)。你可以用該工具開始讀取和寫入 DRAM,而無需在物理上進入其中。我喜歡中介層的想法。在測試過程中,我們確實從中介層中引出了一些引腳,但在系統(tǒng)中無法實現(xiàn)。進入這些 3D 系統(tǒng)確實具有挑戰(zhàn)性。即使從設(shè)計工具流程的角度來看,似乎大多數(shù)公司都在很多 2.5D 工具上進行自己單獨的流程。我們正在開始用一種更標(biāo)準(zhǔn)化的方式來構(gòu)建一個 2.5D 系統(tǒng),從信號完整性、功率到整個流程。

          White:隨著事物進入芯片內(nèi)部,我希望我們?nèi)阅鼙3滞瑯拥燃壍臏?zhǔn)確性。我是 UCIe 格式合規(guī)小組的成員。我正在研究如何刻畫一個可靠的優(yōu)質(zhì)芯片。最終,這需要更多的時間,但我們將在測試所需的性能和準(zhǔn)確性以及固有的靈活性之間找到一個平衡點。

          Schirrmeister:如果我考慮小芯片及其在更開放的生產(chǎn)環(huán)境中的應(yīng)用,測試是使其正常工作的最大挑戰(zhàn)之一。如果我有一家大公司并且我可以控制所有方面,那么我可以適當(dāng)限制事物以使測試等變得可行。如果我想要遵循 UCIe 的口號,即 UCI 距離 PCI 只有一個字母之遙,我可以設(shè)想,從制造角度看,未來 UCIe 組件將變得像今天 PC 上的 PCI 插槽一樣,那么測試方面確實具有很大的挑戰(zhàn)性。我們需要找到解決方案。我們還有很多工作要做。



          關(guān)鍵詞: 內(nèi)存 HBM

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();