AWS Graviton4 助力加速全 Arm 架構(gòu)的基礎(chǔ)設(shè)施時代
作者: Arm 工程部設(shè)計服務(wù)總監(jiān) Tim Thornton
本文引用地址:http://www.ex-cimer.com/article/202409/462645.htm自 2019 年基于 Arm Neoverse N1 核心的 AWS Graviton2 推出以來,Arm 攜手合作伙伴持續(xù)提升基于 Arm 架構(gòu)的設(shè)計性能。如今,AWS Graviton 處理器已發(fā)展到了第四代,在 AWS Graviton4 全面上市之際,我們也一起來回顧一下過去幾年所取得的進展。
在 Arm,芯片設(shè)計流程的一個關(guān)鍵階段是 RTL 仿真。在此過程中,驗證工程師采用以 Verilog 表達的設(shè)計,并使用如西門子的 Questa 高級仿真器或 Cadence 的 Xcelium 等 RTL 仿真器來展示設(shè)計的功能。通過定義特定輸入時的預(yù)期輸出,可以使用 RTL 仿真器來驗證設(shè)計是否達到預(yù)期性能。這對于確保高質(zhì)量的產(chǎn)品至關(guān)重要,但這一過程對算力資源的消耗極高。自 Graviton2 問世以來的數(shù)年中,我們逐步將仿真任務(wù)遷移到基于 Arm 架構(gòu)的計算平臺上,目前我們有超過半數(shù)的 RTL 仿真工作是在基于 AWS Graviton 的 Amazon EC2 實例上執(zhí)行的。
Graviton2 能夠提供優(yōu)于 x86 架構(gòu)的性能。該平臺發(fā)布時,基于 Intel Xeon 的 M5 實例是當時 EC2 現(xiàn)有實例中最新式的類型。與 M5 相比,基于 Graviton2 的 M6g 實例性能提高了 20%,每個虛擬 CPU (vCPU) 的小時成本降低了 20%,相當于能以六成的成本達到相同的仿真結(jié)果。
在 Arm,我們的回歸仿真通常在夜間運行,并包含大量的獨立測試。對于這些測試來說,原始性能并非關(guān)鍵,它們更注重吞吐量,因此要啟用 SMT 運行。我們的工程師也會在白天進行一些仿真,在這種情況下,則需要更快的周轉(zhuǎn)時間。
接下來的 AWS Graviton3 采用了 Neoverse V1 核心,取決于具體的工作負載,其性能比 Graviton2 提高了 20% 至 30%。這使得 Graviton3 vCPU(一個 Neoverse V1 核心)的性能達到了與傳統(tǒng)基于 x86 架構(gòu)核心相當?shù)乃?。因此,我們考慮將 Graviton 用于對性能敏感的仿真工作中,這些工作在過往是需要使用禁用 SMT 的非 Graviton 實例。
圖 1:使用西門子 Questa 高級仿真器時,
各代 AWS Graviton 所達到的 RTL 仿真性能
Graviton4 的推出使得一系列新的 EDA 應(yīng)用能夠在 Arm 平臺上運行,不僅為這些應(yīng)用提供了基礎(chǔ)支持,更成為各類 EDA 工作負載的理想平臺。
每一代 Graviton 相較于上一代產(chǎn)品,性能和性價比都有顯著提升。就每個 vCPU 而言,Graviton4 的速度幾乎是 Graviton2 的兩倍;與基于 Graviton 的前幾代實例相比,Graviton4 可支持擁有多達三倍 vCPU 的實例,從而大幅提高了每個實例的最大容量。盡管性能有了顯著提升,但與 Graviton3 相比,每小時費用僅增加了不到 10%。按吞吐量衡量,Graviton4 是極具性價比的 AWS 實例類型。
圖 2:使用西門子 Questa 高級仿真器時,
各代 AWS Graviton 的 RTL 仿真成本
AWS Graviton4 現(xiàn)已正式推出,驅(qū)動著 Amazon EC2 R8g 實例,并兼容前幾代基于 Graviton 的實例版本。Arm 也將持續(xù)擴展基于 Graviton 實例的應(yīng)用范圍,以推動基于 Arm 架構(gòu)的新一代處理器設(shè)計,并一如既往地實現(xiàn)出色的性能提升。
評論