AMD大爆發(fā) Vega GPU架構(gòu)技術(shù)要點(diǎn)總結(jié)
NCU:下一代計(jì)算單元,為深度學(xué)習(xí)優(yōu)化
本文引用地址:http://www.ex-cimer.com/article/201703/345466.htm單精度和雙精度計(jì)算應(yīng)用于3D渲染領(lǐng)域,但諸如深度學(xué)習(xí)等計(jì)算任務(wù)并不需要用到,它們只需16位半精度浮點(diǎn)計(jì)算操作就行。AMD現(xiàn)有的 Fiji和Polaris GPU中沒有考慮到這一點(diǎn),它的半精度性能與32位單精度性能是一樣的,而半精度計(jì)算需要的寄存器資源卻少得多,也就是說(shuō)AMD沒有對(duì)此作優(yōu)化。與之相比,英偉達(dá)的Tesla 100加速卡,半精度性能就達(dá)到雙精度的兩倍,這讓它在通用計(jì)算中占據(jù)性能優(yōu)勢(shì)。
為此,Vega GPU中首度引入了名為“Packed(緊縮)”的半精度計(jì)算支持,Vega的微架構(gòu)被稱為“NCU(下一代計(jì)算單元)”,每個(gè)NCU中擁有64個(gè)ALU,它可以靈活地執(zhí)行緊縮數(shù)學(xué)操作指令,如每個(gè)周期可以進(jìn)行512個(gè)8位數(shù)學(xué)計(jì)算,或者256個(gè)16位計(jì)算,或者128個(gè)32位計(jì)算—這不僅充分利用了硬件資源,也大幅度提升Vega在深度學(xué)習(xí)計(jì)算的性能。
Vega GPU的性能推算
Vega的架構(gòu)改進(jìn),給業(yè)界帶來(lái)很大的想象力,但它的性能究竟能達(dá)到何種級(jí)別,還是存在很大的懸念。雖然基于Vega GPU的顯卡尚未發(fā)布,但AMD在去年12月份卻帶來(lái)一款Radeon Instinct MI25 計(jì)算卡的消息,它所搭載的就是Vega GPU芯片。
Radeon Instinct MI25 計(jì)算卡
Radeon Instinct MI25計(jì)算卡針對(duì)深度學(xué)習(xí)領(lǐng)域,GPU中直接集成了16GB容量的HBM2高速緩存(對(duì)應(yīng)顯卡則是顯存),卡上另外還集成了1TB容量的NAND閃存,海量的計(jì)算數(shù)據(jù)可以直接放在這塊存儲(chǔ)器中,而不必經(jīng)過(guò)系統(tǒng)內(nèi)存再到傳統(tǒng)硬盤上,由此滿足大計(jì)算量所需的高速交換需求。M125的16位半精度浮點(diǎn)性能達(dá)到25TFLOPS,而用于3D渲染的32位單精度浮點(diǎn)性能也達(dá)到12.5TFLOPs,與之相比,目前AMD的主力顯卡RX 480的單精度浮點(diǎn)性能只有5.8 TFLOPs—我們可以簡(jiǎn)單得出這樣的推論,Vega GPU的3D渲染性能,理論上將能達(dá)到目前RX480顯卡的兩倍左右。
而在Radeon Instinct MI25的發(fā)布會(huì)上,AMD同樣展示了基于Vega GPU的下一代Radeon顯卡的測(cè)試成績(jī),AMD在現(xiàn)場(chǎng)使用《DOOM2016》進(jìn)行了演示,游戲配置為4K@60Hz分辨率、Ultra 畫面。這塊顯卡的顯存只有8GB容量,在實(shí)際測(cè)試中,游戲幀數(shù)達(dá)到60~70fps的性能,整體相當(dāng)于NVIDIA的 GTX 1070、1080之間??紤]到展示卡是早期版本、規(guī)格也不高,能達(dá)到這樣的性能足以讓外界振奮,這讓我們想到圖形雙雄并立的美好時(shí)光。
Radeon Instinct 平臺(tái):Vega進(jìn)軍深度學(xué)習(xí)市場(chǎng)
AMD對(duì)Vega GPU在圖形領(lǐng)域的實(shí)力秘而不宣,但在吹風(fēng)會(huì)上,它將Vega的應(yīng)用重點(diǎn)更多放在機(jī)器學(xué)習(xí)領(lǐng)域。為此,AMD專門發(fā)布了新的AI 計(jì)算子品牌“Radeon Instinct”,該平臺(tái)包括硬件的加速卡和ROCm軟件平臺(tái),我們前面提到的Radeon Instinct MI25計(jì)算卡就是加速卡中的旗艦型號(hào)。ROCm軟件平臺(tái)更為我們所關(guān)注。
我們知道,NVIDIA占據(jù)通用計(jì)算市場(chǎng),除了Tesla加速卡在硬件性能方面的優(yōu)勢(shì)外,更重要的它提供了軟件解決方案,借助它的方案,開發(fā)者能夠編制出相應(yīng)的Tesla加速程序。由于Tesla在并行計(jì)算應(yīng)用中比傳統(tǒng)的CPU優(yōu)勢(shì)巨大,方案一出就快速獲得業(yè)界的接受,并成為事實(shí)上的市場(chǎng)熱門標(biāo)準(zhǔn),以至于英特爾都無(wú)法在密集計(jì)算市場(chǎng)與之爭(zhēng)鋒。NVIDIA現(xiàn)在將他們的GPU定位于AI、神經(jīng)網(wǎng)絡(luò)的首選的計(jì)算平臺(tái),并開始轉(zhuǎn)型將自身定位于AI計(jì)算公司,而不是單單停留在傳統(tǒng)的游戲顯卡市場(chǎng)。這對(duì)于AMD顯然是非常大的刺激,現(xiàn)在AMD也想在該AI計(jì)算獲得突破,那么光靠Vega平臺(tái)的硬件實(shí)力顯然不行,ROCm軟件平臺(tái)的出臺(tái)就是為了解決開發(fā)環(huán)境支持的短板。
Radeon Instinct兩大構(gòu)成:硬件加速卡和ROCm開發(fā)環(huán)境
評(píng)論