前沿芯片架構(gòu)的徹底變革
芯片制造商正在利用演進(jìn)和革命性技術(shù),以相同或更低的功耗實(shí)現(xiàn)性能的數(shù)量級(jí)提高,這標(biāo)志著從制造驅(qū)動(dòng)設(shè)計(jì)到半導(dǎo)體架構(gòu)師驅(qū)動(dòng)設(shè)計(jì)的根本轉(zhuǎn)變。
本文引用地址:http://www.ex-cimer.com/article/202310/451213.htm過(guò)去,大多數(shù)芯片都包含一到兩項(xiàng)前沿技術(shù),主要是為了跟上每隔幾年每個(gè)新工藝節(jié)點(diǎn)的光刻技術(shù)的預(yù)期改進(jìn)。這些改進(jìn)是基于行業(yè)路線(xiàn)圖,該路線(xiàn)圖要求隨著時(shí)間的推移取得可預(yù)測(cè)但不顯著的收益?,F(xiàn)在,隨著大型語(yǔ)言模型和更多傳感器推動(dòng)的數(shù)據(jù)爆炸式增長(zhǎng),以及設(shè)計(jì)自己芯片的系統(tǒng)公司之間的競(jìng)爭(zhēng)加劇,以及涉及人工智能的國(guó)際競(jìng)爭(zhēng)日益激烈,芯片設(shè)計(jì)前沿的規(guī)則正在發(fā)生相當(dāng)大的變化?,F(xiàn)在,漸進(jìn)式改進(jìn)與處理性能的巨大飛躍相結(jié)合,雖然這些改進(jìn)使計(jì)算能力和分析達(dá)到了一個(gè)全新的水平,但它們也需要一套全新的權(quán)衡。
這些轉(zhuǎn)變的核心是高度定制的芯片架構(gòu),其中一些涉及在最先進(jìn)的工藝節(jié)點(diǎn)開(kāi)發(fā)的小芯片。并行處理幾乎是必然的,針對(duì)特定數(shù)據(jù)類(lèi)型和操作的加速器也是如此。在某些情況下,這些微型系統(tǒng)不會(huì)進(jìn)行商業(yè)銷(xiāo)售,因?yàn)樗鼈優(yōu)閿?shù)據(jù)中心提供了競(jìng)爭(zhēng)優(yōu)勢(shì)。但它們也可能包括其他商用技術(shù),例如處理核心、加速器、用于減少延遲的內(nèi)存、近內(nèi)存計(jì)算技術(shù),以及不同的緩存方案、共同封裝的光學(xué)器件和更快的互連。其中許多進(jìn)展多年來(lái)一直處于研究或擱置狀態(tài),現(xiàn)在正在全面部署。
谷歌研究院工程研究員兼機(jī)器學(xué)習(xí)系統(tǒng)副總裁 Amin Vahdat 在最近的 Hot Chips 2023 會(huì)議上的演講中指出,今天的芯片可以解決十年前無(wú)法想象的問(wèn)題,而機(jī)器學(xué)習(xí)將承擔(dān)「越來(lái)越多的任務(wù)」。
「我們需要改變對(duì)系統(tǒng)設(shè)計(jì)的看法,」Vahdat 說(shuō)。「過(guò)去五、六、七年中計(jì)算需求的增長(zhǎng)令人震驚...... 雖然在算法稀疏性方面出現(xiàn)了許多創(chuàng)新,但當(dāng)您查看圖 1 時(shí),它顯示了 10 倍每個(gè)模型的參數(shù)數(shù)量持續(xù)一年。我們還知道,計(jì)算成本隨著參數(shù)數(shù)量的增加而超線(xiàn)性增長(zhǎng)。因此,我們?yōu)閼?yīng)對(duì)這一挑戰(zhàn)而必須構(gòu)建的計(jì)算基礎(chǔ)設(shè)施類(lèi)型必須改變。值得注意的是,如果我們?cè)噲D在通用計(jì)算上做到這一點(diǎn),我們就不會(huì)達(dá)到今天的水平。我們?cè)谶^(guò)去 50 或 60 年間開(kāi)發(fā)的傳統(tǒng)計(jì)算智慧已被拋棄?!?/span>
圖 1:機(jī)器學(xué)習(xí)計(jì)算的需求增長(zhǎng)。來(lái)源:Google 研究/Hot Chips 2023
然而,這并不意味著老問(wèn)題消失了。功耗和散熱一直是設(shè)計(jì)團(tuán)隊(duì)頭疼的問(wèn)題,并且隨著處理速度和數(shù)量的增加,它們變得更加難以解決。在大約 3GHz 之后,由于熱密度更高且芯片無(wú)法散發(fā)熱量,僅僅調(diào)高時(shí)鐘頻率就不再是一個(gè)簡(jiǎn)單的選擇。雖然稀疏數(shù)據(jù)模型和軟硬件協(xié)同設(shè)計(jì)解決了在各種處理元件上運(yùn)行的軟件的效率,以及每個(gè)計(jì)算周期處理更多數(shù)據(jù)的能力,但不再需要轉(zhuǎn)動(dòng)一個(gè)旋鈕來(lái)提高每瓦性能。
內(nèi)存創(chuàng)新
然而,有許多小型和中型旋鈕,其中一些從未在生產(chǎn)系統(tǒng)中使用過(guò),因?yàn)闆](méi)有經(jīng)濟(jì)原因這樣做。隨著數(shù)據(jù)的增加和架構(gòu)創(chuàng)新的轉(zhuǎn)變,這些經(jīng)濟(jì)學(xué)發(fā)生了巨大的變化,這一點(diǎn)在今年的 Hot Chips 會(huì)議上顯而易見(jiàn)。
其中的選項(xiàng)包括內(nèi)存/近內(nèi)存處理,以及更接近數(shù)據(jù)源的處理。這里的問(wèn)題是,移動(dòng)大量數(shù)據(jù)需要大量的系統(tǒng)資源——帶寬、電力和時(shí)間——這對(duì)計(jì)算有直接的經(jīng)濟(jì)影響。一般來(lái)說(shuō),收集和處理的大部分?jǐn)?shù)據(jù)都是無(wú)用的。例如,汽車(chē)或安全系統(tǒng)中的視頻輸入中的相關(guān)數(shù)據(jù)可能僅持續(xù)一兩秒,而可能需要數(shù)小時(shí)的數(shù)據(jù)進(jìn)行整理。對(duì)靠近源頭的數(shù)據(jù)進(jìn)行預(yù)處理,并使用人工智能來(lái)識(shí)別感興趣的數(shù)據(jù),意味著只需發(fā)送一小部分?jǐn)?shù)據(jù)進(jìn)行進(jìn)一步處理和存儲(chǔ)。
三星首席工程師 Jin Hyun Kim 表示:「大部分能源消耗來(lái)自移動(dòng)數(shù)據(jù)?!顾赋隽巳N提高效率和提升績(jī)效的解決方案:
使用 HBM 進(jìn)行內(nèi)存處理,實(shí)現(xiàn)極高的帶寬和功耗;
使用 LPDDR 對(duì)需要高容量的低功耗設(shè)備進(jìn)行內(nèi)存處理;
使用 CXL 進(jìn)行近內(nèi)存處理,以適中的成本實(shí)現(xiàn)極高的容量。
圖 2:移動(dòng)數(shù)據(jù)的資源成本。來(lái)源:三星/Hot Chips 2023
內(nèi)存處理已經(jīng)在繪圖板上醞釀了很多年,直到最近才出現(xiàn)太大進(jìn)展。大型語(yǔ)言模型已經(jīng)極大地改變了經(jīng)濟(jì)學(xué),現(xiàn)在它變得更加有趣,大型內(nèi)存供應(yīng)商也沒(méi)有忽視這一點(diǎn)。
這一概念的新改進(jìn)是內(nèi)存加速,這對(duì)于 AI/ML 的乘法累加 (MAC) 函數(shù)特別有用,因?yàn)樾枰焖偬幚淼臄?shù)據(jù)量呈爆炸式增長(zhǎng)。使用生成式預(yù)訓(xùn)練 Transformer 3 (GPT-3) 和 GPT4,僅加載數(shù)據(jù)就需要大量帶寬。與此相關(guān)的挑戰(zhàn)有很多,包括如何有效地做到這一點(diǎn),同時(shí)最大限度地提高性能和吞吐量,如何擴(kuò)展它以處理大型語(yǔ)言模型中參數(shù)數(shù)量的快速增加,以及如何建立靈活性以適應(yīng)未來(lái)的變化。
SK hynix America 高級(jí)技術(shù)傳感經(jīng)理 Yonkwee Kwon 在 Hot Chips 2023 上的演講中表示:「我們一開(kāi)始的想法是將內(nèi)存作為加速器。第一個(gè)目標(biāo)是實(shí)現(xiàn)高效擴(kuò)展。但擁有高性能也很重要。最后,我們?cè)O(shè)計(jì)的系統(tǒng)架構(gòu)易于編程,同時(shí)最大限度地減少系統(tǒng)結(jié)構(gòu)開(kāi)銷(xiāo),但仍然允許軟件堆棧實(shí)現(xiàn)靈活性?!?/span>
圖 3:MAC 和激活操作可以在所有庫(kù)中并行執(zhí)行,權(quán)重矩陣數(shù)據(jù)來(lái)自庫(kù),矢量數(shù)據(jù)來(lái)自全局緩沖區(qū)。MAC 和激活函數(shù)結(jié)果分別存儲(chǔ)在名為 MAC_REG 和 AF_REG 的鎖存器中。來(lái)源:SK 海力士/Hot Chips 2023
CPU 改進(jìn)
雖然內(nèi)存的變化有助于減少需要移動(dòng)的數(shù)據(jù)量,但這只是難題的一小部分。下一個(gè)挑戰(zhàn)是加快主要處理元素的速度。做到這一點(diǎn)的一種方法是分支預(yù)測(cè),它基本上預(yù)測(cè)下一個(gè)操作將是什么——幾乎就像互聯(lián)網(wǎng)搜索引擎的方式一樣。然而,與任何并行架構(gòu)一樣,關(guān)鍵是保持各種處理元素充分運(yùn)行,沒(méi)有空閑時(shí)間,以最大限度地提高性能和效率。
Arm 通過(guò)其 Neoverse V2 設(shè)計(jì)對(duì)這一概念進(jìn)行了新的改造,將分支與獲取分離。其結(jié)果是通過(guò)最大限度地減少停頓來(lái)提高效率,并從錯(cuò)誤預(yù)測(cè)中更快地恢復(fù)。Arm 首席 CPU 架構(gòu)師 Magnus Bruce 表示:「動(dòng)態(tài)饋送機(jī)制允許內(nèi)核調(diào)節(jié)攻擊性,并主動(dòng)防止系統(tǒng)擁塞。這些基本概念使我們能夠推動(dòng)機(jī)器的寬度和深度,同時(shí)保持較短的管道以快速恢復(fù)錯(cuò)誤預(yù)測(cè)?!?/span>
圖 4:Neoverse V2 核心的流程示意圖。來(lái)源:Arm/Hot Chips 2023
這里的不同之處在于,整個(gè)系統(tǒng)的改進(jìn)來(lái)自于架構(gòu)在多個(gè)點(diǎn)的調(diào)整,而不是大規(guī)模的改變。例如,拆分分支預(yù)測(cè)器和獲取可以將分支目標(biāo)緩沖區(qū)拆分為兩個(gè)級(jí)別,使其能夠處理多 50% 的條目。它還將預(yù)測(cè)器中存儲(chǔ)的歷史記錄增加了三倍,并將獲取隊(duì)列中的條目數(shù)量增加了一倍,從而顯著提高了實(shí)際性能。為了使其有效,該架構(gòu)還將 L2 緩存加倍,從而將使用過(guò)的數(shù)據(jù)塊預(yù)測(cè)和使用過(guò)的多次數(shù)據(jù)塊預(yù)測(cè)分開(kāi)。綜合各種改進(jìn),Neoverse V2 的性能是 V1 的兩倍,具體取決于它在系統(tǒng)中扮演的角色。
與此同時(shí),AMD 的下一代 Zen 4 核心由于微架構(gòu)的改進(jìn),每周期指令數(shù)增加了約 14%,由于工藝擴(kuò)展,在相同電壓下 5nm 下的頻率提高了 16%,由于微架構(gòu)和技術(shù)的改進(jìn),功耗降低了約 60%。
與 Arm 一樣,AMD 也致力于改進(jìn)分支預(yù)測(cè)和獲取。AMD 研究員兼 Zen 4 首席架構(gòu)師 Kai Troester 表示,由于更多的分支、每個(gè)周期更多的分支預(yù)測(cè)以及允許更多條目和每個(gè)條目更多操作的更大操作緩存,分支預(yù)測(cè)準(zhǔn)確性得到了提高。它還添加了 3D V 高速緩存,將每個(gè)內(nèi)核的 L3 高速緩存提升至高達(dá) 96 MB,并在 256 位數(shù)據(jù)路徑上使用兩個(gè)連續(xù)周期提供對(duì) 512 位操作的支持。簡(jiǎn)而言之,該設(shè)計(jì)增加了數(shù)據(jù)管道的大小,并盡可能縮短數(shù)據(jù)必須傳輸?shù)木嚯x。
圖 5:Zen 4 的兩種實(shí)現(xiàn),包括每個(gè)芯片的計(jì)算核心數(shù)量是兩倍的 Zen 4c 以及分區(qū)的 L3 緩存。來(lái)源:AMD/2023 年熱門(mén)芯片
平臺(tái)架構(gòu)系統(tǒng)
方面的主要趨勢(shì)之一是不斷增加的領(lǐng)域?qū)S眯?,這對(duì)開(kāi)發(fā)適用于所有應(yīng)用程序的通用處理器的舊模式造成了嚴(yán)重破壞?,F(xiàn)在的挑戰(zhàn)是如何提供本質(zhì)上的大規(guī)模定制,有兩種主要方法:通過(guò)硬件或可編程邏輯添加可編程性,以及開(kāi)發(fā)可互換部件的平臺(tái)。
英特爾推出了一個(gè)將小芯片集成到先進(jìn)封裝中的框架,該封裝利用其嵌入式多芯片互連橋來(lái)連接高速 I/O、處理器內(nèi)核和內(nèi)存。英特爾的目標(biāo)是提供足夠的定制和性能來(lái)滿(mǎn)足客戶(hù)的需求,但交付這些系統(tǒng)的速度比完全定制的架構(gòu)要快得多,并且結(jié)果可預(yù)測(cè)。
「這將是一個(gè)多芯片架構(gòu),」英特爾院士兼首席至強(qiáng)架構(gòu)師 Chris Gianos 說(shuō)道?!肝覀兛梢允褂眠@些小芯片構(gòu)建結(jié)構(gòu),具有很大的靈活性。它們都只是互操作,它為我們提供了專(zhuān)門(mén)優(yōu)化產(chǎn)品核心的維度之一。我們將創(chuàng)建 E 核(超高效)的小芯片和 P 核(高性能)的小芯片?!?/span>
英特爾還創(chuàng)建了一個(gè)模塊化網(wǎng)狀結(jié)構(gòu)來(lái)將各種組件連接在一起,以及一個(gè)支持 DDR 或 MCR 內(nèi)存以及通過(guò) CXL 連接的內(nèi)存的通用控制器。
圖 6:英特爾的可定制小芯片架構(gòu)。橙色框代表內(nèi)存通道。來(lái)源:英特爾/Hot Chips 2023
神經(jīng)處理器、光學(xué)互連
即使對(duì)于 Hot Chips 會(huì)議來(lái)說(shuō),新方法和新技術(shù)的清單也是前所未有的。它表明業(yè)界正在多么廣泛地尋找增加功率和降低功率的新方法,同時(shí)仍然關(guān)注面積和成本。PPAC 仍然是焦點(diǎn),但不同應(yīng)用程序和用例的權(quán)衡可能非常不同。
IBM 研究員 Dharmendra Modha 表示:「人工智能的運(yùn)營(yíng)支出和資本支出正在變得不可持續(xù)。」他補(bǔ)充道,「架構(gòu)勝過(guò)摩爾定律?!?/span>
對(duì)于 AI/ML 應(yīng)用來(lái)說(shuō),精度也至關(guān)重要。IBM 的設(shè)計(jì)包括一個(gè)支持混合精度的向量矩陣乘法器,以及具有 FP16 精度的向量計(jì)算單元和激活函數(shù)單元。此外,處理是在距離內(nèi)存幾微米的范圍內(nèi)完成的?!覆淮嬖谝蕾?lài)于數(shù)據(jù)的條件分支,」他說(shuō)?!笡](méi)有緩存未命中、沒(méi)有停頓、沒(méi)有推測(cè)執(zhí)行?!?/span>
圖 7:IBM 的 North Pole 芯片,顯示了相互交織的計(jì)算(紅色)和內(nèi)存(藍(lán)色)。來(lái)源:IBM/Hot Chips 2023
復(fù)雜芯片的一個(gè)關(guān)鍵挑戰(zhàn)不僅是在內(nèi)存和處理器之間移動(dòng)數(shù)據(jù),而且還在于芯片周?chē)臄?shù)據(jù)移動(dòng)。片上網(wǎng)絡(luò)和其他互連結(jié)構(gòu)簡(jiǎn)化了這一過(guò)程。硅光子學(xué)已經(jīng)使用了一段時(shí)間,特別是對(duì)于高速網(wǎng)絡(luò)芯片,并且光子學(xué)在機(jī)架中的服務(wù)器之間發(fā)揮著作用。但是否或何時(shí)轉(zhuǎn)移到芯片層面仍不確定。盡管如此,這一領(lǐng)域的工作仍在繼續(xù),根據(jù)芯片行業(yè)的大量采訪(fǎng),光子學(xué)受到了許多公司的關(guān)注。
Lightelligence 工程副總裁 Maurice Steinman 表示,他的公司已經(jīng)開(kāi)發(fā)出專(zhuān)門(mén)構(gòu)建的基于光子學(xué)的加速器,其速度比 GPU 快 100 倍,而且功耗顯著降低。該公司還開(kāi)發(fā)了片上光學(xué)網(wǎng)絡(luò),更多的是使用硅中介層作為使用光子而不是電子連接小芯片的介質(zhì)。
「純電氣解決方案面臨的挑戰(zhàn)是,隨著距離的衰減,僅在最近的鄰居之間進(jìn)行通信確實(shí)變得切實(shí)可行,」斯坦曼說(shuō)?!溉绻酒笊辖怯幸粋€(gè)結(jié)果需要與右下角通信,那么它需要遍歷很多跳。這給負(fù)責(zé)分配資源的軟件組件帶來(lái)了問(wèn)題,因?yàn)樗枰紤]接下來(lái)的幾個(gè)棋步以避免擁塞?!?/span>
圖 8:片上光網(wǎng)絡(luò)顯示光子集成電路 (PIC)、電氣集成電路 (EIC),使用平面柵格陣列 (LGA) 基板。來(lái)源:Lightelligence/Hot Chips 2023
可持續(xù)性、可靠性和未來(lái)
隨著所有這些變化,另外兩個(gè)問(wèn)題也出現(xiàn)了。一是可持續(xù)性。隨著更多的數(shù)據(jù)由更多的芯片處理,挑戰(zhàn)甚至將集中在能源消耗上,更不用說(shuō)減少碳足跡了。更多更高效的設(shè)備并不一定會(huì)消耗更少的電力,而且制造所有這些設(shè)備都需要能源。
一段時(shí)間以來(lái),數(shù)據(jù)中心一直是人們關(guān)注的目標(biāo)。十年前,普遍認(rèn)同的統(tǒng)計(jì)數(shù)據(jù)是數(shù)據(jù)中心消耗了地球上所有發(fā)電量的 2% 到 3%。美國(guó)能源效率和可再生能源辦公室表示,數(shù)據(jù)中心約占美國(guó)總用電量的 2%。這些數(shù)字并不總是準(zhǔn)確的,因?yàn)榫G色能源有多種,制造和回收太陽(yáng)能電池板和風(fēng)車(chē)葉片也需要能源。但很明顯,消耗的能源量將隨著數(shù)據(jù)的增長(zhǎng)而繼續(xù)增長(zhǎng),即使它沒(méi)有以相同的速度跟蹤。
Hot Chips 以及其他會(huì)議上的許多演講都將可持續(xù)發(fā)展作為目標(biāo)。盡管基礎(chǔ)數(shù)據(jù)可能有所不同,但事實(shí)上,這是許多芯片制造商的企業(yè)強(qiáng)制要求,這一點(diǎn)意義重大。
第二個(gè)尚未解決的問(wèn)題是可靠性。許多新芯片設(shè)計(jì)也比前幾代芯片復(fù)雜幾個(gè)數(shù)量級(jí)。過(guò)去,主要問(wèn)題是基板上可以塞滿(mǎn)多少晶體管以及如何避免芯片熔化。如今,數(shù)據(jù)路徑和分區(qū)如此之多,散熱只是眾多因素之一。隨著越來(lái)越多的數(shù)據(jù)被分區(qū)、處理、重新聚合和分析,結(jié)果的準(zhǔn)確性和一致性可能更難以確定和保證,特別是當(dāng)設(shè)備老化程度不同并以意想不到的方式交互時(shí)。
此外,谷歌研究院高級(jí)研究員兼高級(jí)副總裁 Jeff Dean 表示,模型正在從單一模態(tài)轉(zhuǎn)變?yōu)槎喾N模態(tài)(圖像、文本、聲音和視頻),從密集模型轉(zhuǎn)向稀疏模型?!竸?dòng)力、可持續(xù)性和可靠性確實(shí)很重要,」他說(shuō),并指出許多有關(guān)人工智能訓(xùn)練和 CO2 排放的數(shù)據(jù)都具有誤導(dǎo)性?!溉绻闶褂谜_的數(shù)據(jù),事情就不會(huì)那么可怕?!?/span>
結(jié)論
從純粹的技術(shù)角度來(lái)看,芯片架構(gòu)的功耗、性能和面積/成本進(jìn)步與過(guò)去的進(jìn)步截然不同。創(chuàng)新無(wú)處不在,路線(xiàn)圖表明性能的持續(xù)提升、每次計(jì)算的能耗降低以及總擁有成本的降低。
多年來(lái),人們一直猜測(cè)建筑師可以極大地改進(jìn) PPAC 方程。Hot Chips 2023 讓我們一睹包含這些改進(jìn)的實(shí)際實(shí)現(xiàn),創(chuàng)新顯然已經(jīng)交給了架構(gòu)師。現(xiàn)在最大的問(wèn)題是接下來(lái)會(huì)發(fā)生什么,這項(xiàng)技術(shù)將如何應(yīng)用,以及這些變化會(huì)帶來(lái)哪些其他可能性。有了這種計(jì)算能力,似乎一切皆有可能。
評(píng)論