MENTOR、AMD 和 MICROSOFT 合作開(kāi)展云上 EDA
如果將部分或全部電子設(shè)計(jì)自動(dòng)化 (EDA) 計(jì)算轉(zhuǎn)移到云上,設(shè)計(jì)公司將能獲得靈活的資源和 規(guī)模經(jīng)濟(jì)性,從而縮短產(chǎn)品上市時(shí)間并加快創(chuàng)新速度。Mentor, a Siemens Business (Mentor) 與 Advanced Micro Devices, Inc. (AMD) 和 Microsoft Azure (Azure) 合作,展示了 Calibre? 平臺(tái) 結(jié)合云計(jì)算如何能夠提供更多計(jì)算資源,大幅縮短設(shè)計(jì)收斂時(shí)間,讓設(shè)計(jì)更快上市。采用 7nm 量產(chǎn)設(shè)計(jì),物理驗(yàn)證周期縮短了 2.5 倍。
本文引用地址:http://www.ex-cimer.com/article/202104/424171.htmCALIBRE 云計(jì)算
當(dāng)進(jìn)入設(shè)計(jì)流片的緊要關(guān)頭時(shí),云處理可以為集成電路 (IC) 設(shè)計(jì)公司提供比通常多得多的 計(jì)算資源,使其有機(jī)會(huì)縮短產(chǎn)品上市時(shí)間并加快創(chuàng)新速度。高擴(kuò)展性工具(例如 Calibre 平 臺(tái)中的那些工具)可以擴(kuò)展到數(shù)千個(gè)內(nèi)核以減少運(yùn)行時(shí)間……但是,誰(shuí)會(huì)有數(shù)千個(gè)內(nèi)核閑 置不用呢?當(dāng)您承受極大的時(shí)間壓力時(shí),例如進(jìn)行模塊或全芯片驗(yàn)證時(shí),云可提供豐富得 多的硬件資源供您使用。
Calibre 內(nèi)核技術(shù)多年前就已經(jīng)為云計(jì)算做好了準(zhǔn)備 [1,2]。云安全性的最新改進(jìn)減輕了業(yè)界 對(duì)知識(shí)產(chǎn)權(quán) (IP) 保護(hù)的擔(dān)憂,阻礙在云處理模型中實(shí)施和使用 Calibre 技術(shù)的最大障礙已被 消除。
Mentor 與晶圓代工廠、IC 公司和云服務(wù)提供商密切合作,確保從現(xiàn)場(chǎng)網(wǎng)格系統(tǒng)平穩(wěn)過(guò)渡到 場(chǎng)外云處理。發(fā)現(xiàn)和明確最佳實(shí)踐可以讓過(guò)渡到 “云上 Calibre” 處理模型的公司實(shí)現(xiàn)最大獲 益。IC 公司越來(lái)越多地希望在先進(jìn)工藝節(jié)點(diǎn)設(shè)計(jì)中利用云能力來(lái)縮短周轉(zhuǎn)時(shí)間,在此背景 下,他們可以確信,運(yùn)行云上 Calibre 將會(huì)提供他們知道和信任的相同 sign-off 驗(yàn)證結(jié)果, 同時(shí)他們還能調(diào)整資源使用,以便最好地服務(wù)其業(yè)務(wù)和市場(chǎng)需求。
CALIBRE 與云服務(wù)器效率
為確保 Calibre 用戶能以最具成本效益的方式使用云資源,我們制定了云使用指導(dǎo)原則,并 提出了在云上運(yùn)行 Calibre 操作的最佳實(shí)踐。為了制定和測(cè)試這些指導(dǎo)原則與實(shí)踐,我們與 AMD 和 Azure 聯(lián)合開(kāi)展了一個(gè)項(xiàng)目,采用運(yùn)行在 Azure 云服務(wù)上的 AMD EPYC? 服務(wù)器。結(jié) 果表明,EPYC 服務(wù)器和 Calibre 平臺(tái)在 Azure 云上展現(xiàn)出強(qiáng)大的能力。
晶圓代工廠規(guī)則集
設(shè)計(jì)公司應(yīng)始終使用符合晶圓代工廠要求的最新規(guī)則集,以確保實(shí)施最新的最佳編碼實(shí)踐。
CALIBRE 軟件版本
Mentor 長(zhǎng)期致力于優(yōu)化 Calibre 引擎,Calibre 每個(gè)版本都有改進(jìn),使用最新版本的 Calibre
軟件可確保運(yùn)行時(shí)間和內(nèi)存消耗更加優(yōu)化,如圖 1 所示 [3]。
圖 1:(左)歸一化內(nèi) 存與 Calibre 發(fā)行版,( 右) 歸一化運(yùn)行時(shí) 間與 Calibre 發(fā)行版。
云服務(wù)器
市場(chǎng)針對(duì)云操作提供了許多不同類型的服務(wù)器,“最佳” 選擇取決于客戶的需求和應(yīng)用。對(duì) 于我們的協(xié)作項(xiàng)目,我們選擇了可用于 Microsoft Azure 公共云的 AMD EPYC 服務(wù)器。不同 類型的 EPYC 服務(wù)器有不同的內(nèi)核、內(nèi)存、接口和性能特性,云用戶可以選擇最適合其應(yīng) 用的 EPYC 服務(wù)器。
AMD EPYC 架構(gòu)(圖 2)的每個(gè)插槽有 32 個(gè)內(nèi)核/64 個(gè)線程,為大規(guī)模并行計(jì)算提供了極 好的媒介,支持重度計(jì)算的運(yùn)行任務(wù)。8 個(gè) DDR4 通道為服務(wù)器增加了新的維度,可進(jìn)一步 優(yōu)化其處理機(jī)器密集型計(jì)算運(yùn)行的能力。最后,每 4 個(gè)內(nèi)核 8MB L3 內(nèi)存緩存的層次化設(shè)計(jì) 進(jìn)一步提升了計(jì)算速度。
圖 2:AMD EPYC 服務(wù) 器架構(gòu)(信息來(lái)源: AMD。 已獲得使用許可。)
這些云服務(wù)器用于在云服務(wù)中創(chuàng)建虛擬機(jī)(實(shí)例)。針對(duì) Calibre 應(yīng)用,我們確定了兩種最 適合的 Azure 實(shí)例:HB60rs 和 L80s v2。HB60rs 和 L80s v2 均可在 EPYC 7551 處理器上運(yùn) 行,但配置和功能不同。
例如,HB60rs 實(shí)例與 Lv2 實(shí)例具有相同的 EPYC 7551 處理器,但前者只能訪問(wèn)雙插槽機(jī)器 的 64 個(gè)內(nèi)核中的 60 個(gè),并且超線程功能被關(guān)閉。Lv2 實(shí)例旨在支持要求苛刻、存儲(chǔ)密集 型且需要高水平 I/O 的工作負(fù)荷,而 HB 系列實(shí)例則針對(duì)內(nèi)存帶寬驅(qū)動(dòng)的應(yīng)用(例如流體動(dòng) 力學(xué)和顯式有限元分析)進(jìn)行了優(yōu)化。表 1 比較了這兩類服務(wù)器的主要特性。
表 1 - AMD EPYC 服務(wù)器特性
CALIBRE 云計(jì)算
針對(duì)該聯(lián)合項(xiàng)目,我們使用了量產(chǎn)型 7nm Radeon Instinct? Vega20 的最終金屬流片數(shù)據(jù) 庫(kù)。該設(shè)計(jì)是 AMD 最大的 7nm 芯片設(shè)計(jì),包含超過(guò) 130 億個(gè)晶體管。
初始設(shè)置
Calibre 2019.2 版本與 7nm 工藝 節(jié)點(diǎn)的晶圓代工廠規(guī)則集的一 個(gè)生產(chǎn)版本配合使用,以對(duì)設(shè) 計(jì)執(zhí)行設(shè)計(jì)規(guī)則檢查 (DRC)。對(duì) 于 Calibre nmDRC? 運(yùn)行,我們 使用了 Calibre 超遠(yuǎn)程分布式計(jì) 算功能 [3],其支持多達(dá) 4,000 個(gè) 內(nèi)核(圖 3)。
像所有 Calibre 分布式計(jì)算運(yùn)行 一樣,分配了一個(gè)主機(jī)來(lái)管理運(yùn) 行中使用的所有其他資源。為 了我們的合作目的,指定的主 機(jī)和遠(yuǎn)程服務(wù)器均為具有 32 個(gè) CPU 內(nèi)核和 256 GB RAM 內(nèi)存的 AMD EPYC 7551 服務(wù)器。
圖 3:Calibre nmDRC 運(yùn)行時(shí)間與內(nèi)核數(shù)的關(guān)系。(信息來(lái)源:AMD。許可使用)
云設(shè)置
Mentor 使用 AMD EPYC 服務(wù)器(主機(jī)和遠(yuǎn)程服務(wù)器均為這種服務(wù)器)運(yùn)行了所有實(shí)驗(yàn),硬 件配置如下:
■ Microsoft Azure HB60rs 實(shí)例。對(duì)于單個(gè) HB60rs,主機(jī)與 17、25、34、68 個(gè)遠(yuǎn)程 HB60rs 實(shí)例一起運(yùn)行,每個(gè)實(shí)例均完全專用于運(yùn)行 Calibre 作業(yè),使用 Azure CycleCloud 界面 來(lái)調(diào)用和管理作業(yè)。
■ 地理位置靠近的服務(wù)器。使用的所有云服務(wù)器均在最靠近用于啟動(dòng)和控制云使用的硬 件物理位置的 Azure Cloud 區(qū)域中運(yùn)行。
■ 為使啟動(dòng)作業(yè)和實(shí)際執(zhí)行之間的等待時(shí)間最小化,當(dāng)模塊準(zhǔn)備就緒時(shí),設(shè)計(jì)便在云上 匯編。
結(jié)果
我們的結(jié)果展示出以下性能指標(biāo):
■ Calibre nmDRC 的運(yùn)行速度持續(xù)提高,直至達(dá)到 4K 內(nèi)核。
–該擴(kuò)展曲線中總是存在一個(gè) “拐點(diǎn)”,在此點(diǎn)可實(shí)現(xiàn) “最佳性價(jià)比”。對(duì)于該設(shè)計(jì)和節(jié) 點(diǎn),拐點(diǎn)在 1.5K 和 2K 內(nèi)核之間。
■ 主機(jī)和遠(yuǎn)程服務(wù)器使用的峰值累積內(nèi)存小于 500GB。
■ 實(shí)際上,隨著內(nèi)核數(shù)量的增加,遠(yuǎn)程服務(wù)器峰值內(nèi)存有所降低。
在本地 Calibre nmDRC 運(yùn)行中,Mentor 一般將 256 個(gè)內(nèi)核用于全芯片 DRC,因?yàn)檫@是大多 數(shù)設(shè)計(jì)團(tuán)隊(duì)在流片期間通常可以訪問(wèn)的現(xiàn)場(chǎng)資源數(shù)量。對(duì)于大型復(fù)雜的 7nm 設(shè)計(jì),例如 AMD Radeon VII/MI60 GPU,使用 256 個(gè)內(nèi)核的周轉(zhuǎn)時(shí)間可能長(zhǎng)達(dá) 24 小時(shí)。這意味著一個(gè)團(tuán) 隊(duì)通常每天只能完成一次設(shè)計(jì)迭代,這比大多數(shù)上市時(shí)間計(jì)劃要求的速度要慢很多。
將該數(shù)量增加到 2K 個(gè)內(nèi)核,運(yùn)行時(shí)間可以減少到 12 小時(shí),每天可以迭代兩次,而增加到 4K 個(gè)內(nèi)核的話,運(yùn)行時(shí)間將不到 8 小時(shí),每天可以迭代三次。該實(shí)驗(yàn)清楚地表明,Calibre 擴(kuò)展的功能和效率與可用內(nèi)核數(shù)量的顯著增加相結(jié)合,能讓使用云上 Calibre 軟件的公司減 少運(yùn)行時(shí)間,從而大幅提高設(shè)計(jì)收斂率。
如前所述,Mentor 不斷努力提高 Calibre 的性能,并與晶圓代工廠合作以發(fā)現(xiàn)并部署聚焦于 性能的規(guī)則集優(yōu)化(同時(shí)確保精度相同或更好)。如圖 3 所示,我們運(yùn)行了一個(gè)額外的實(shí) 驗(yàn),以了解使用最新版本 Calibre 和最新的優(yōu)化規(guī)則集是否有任何益處。黃色圓點(diǎn)所示的結(jié) 果表明,在擴(kuò)展曲線的拐點(diǎn)處(大約 2K 個(gè)內(nèi)核)可以再節(jié)省三個(gè)小時(shí)。
云成本最小化
大型片上系統(tǒng) (SOC) 設(shè)計(jì)在驗(yàn)證期間會(huì) 消耗大量 RAM,而 RAM 是非常昂貴的。 即使在云上,較大的 RAM 實(shí)例也很昂 貴。解決辦法是通過(guò)增加遠(yuǎn)程內(nèi)核的總 數(shù)來(lái)減少每個(gè)遠(yuǎn)程內(nèi)核的 RAM 需求, 如圖 4 所示。Calibre 平臺(tái)提供一種經(jīng)過(guò) 驗(yàn)證的超遠(yuǎn)程分布式處理模型 [3],用 戶可以利用此功能降低云資源的成本, 同時(shí)還能以較少 RAM 的 CPU 實(shí)現(xiàn)更快 的處理速度。
圖 4:峰值內(nèi)存 (RAM) 消耗與遠(yuǎn)程內(nèi)核使用情況的關(guān)系。
結(jié)語(yǔ)
Mentor、AMD 和 Azure 之間的合作表明,通過(guò)實(shí)施 EDA 云計(jì)算的最佳實(shí)踐和使用指南,可 以減少運(yùn)行時(shí)間并降低云使用的成本。公司可以將這些結(jié)果作為實(shí)施自己的 “云上 Calibre” 的指南。通過(guò)實(shí)施這些策略和實(shí)踐,公司可以實(shí)現(xiàn)更快的總體運(yùn)行時(shí)間,縮短產(chǎn)品上市時(shí) 間,加快設(shè)計(jì)創(chuàng)新,同時(shí)維持或降低運(yùn)營(yíng)成本。
參考文獻(xiàn)
[1] Omar El-Sewefy, “Calibre in the cloud: Unlocking massive scaling and cost efficiencies,”
Mentor, a Siemens Business, July 2019. https://go.mentor.com/57RKT
[2] John Ferguson, “New approaches to physical verification closure and cloud computing,”
Mentor, a Siemens Business.March 2020. https://go.mentor.com/5acv3
[3] John Ferguson, “Ensuring Optimal Performance for Physical Verification,” Mentor, A Siemens Business. April 2015. https://go.mentor.com/4gx2a
更多相關(guān)信息,請(qǐng)點(diǎn)擊>> http://share.eepw.com.cn/share/download/id/388591
評(píng)論