Nvidia的Blackwell AI GPU過熱問題似乎被過度夸大——半導(dǎo)體分析師透露,冷卻問題已大多得到解決
Nvidia的GB200 NVL72服務(wù)器機架過熱問題似乎被夸大了。根據(jù)《商業(yè)內(nèi)幕》的報道,Blackwell的冷卻設(shè)計缺陷已經(jīng)得到解決。Semianalysis的首席分析師Dylan Patel向《商業(yè)內(nèi)幕》表示,Blackwell的設(shè)計問題已經(jīng)存在幾個月,但大多數(shù)問題已經(jīng)得到解決,過熱問題被夸大了。
本文引用地址:http://www.ex-cimer.com/article/202411/464808.htmSemianalysis的五位半導(dǎo)體行業(yè)分析師表示,導(dǎo)致多個供應(yīng)商進行“返工”的冷卻系統(tǒng)問題是一個“小問題”。Blackwell的冷卻問題尤其在Nvidia的大型72芯片服務(wù)器機架中出現(xiàn),后者的功率需求可達到120kW。機架設(shè)計中的缺陷迫使Nvidia多次重新評估設(shè)計,因為機架內(nèi)的GPU過熱。這導(dǎo)致Nvidia的GB200硬件出貨延遲,并因需要進行設(shè)計更改而進一步推遲。
Nvidia的B200 GPU是AI工作負載中最強大的處理芯片。例如,GB200超級芯片的可配置熱設(shè)計功率(TDP)高達幾千瓦,峰值功率可達2700瓦。這些極高的功率使得在標準機架形式中幾乎不可能使用空氣冷卻。
這一物理問題迫使Nvidia在最新的Blackwell GPU上使用液體冷卻。同時,它還要求數(shù)據(jù)中心重新改造服務(wù)器農(nóng)場,以容納支持液冷服務(wù)器所需的基礎(chǔ)設(shè)施。
Nvidia可以通過制造較低功率的空氣冷卻GPU來解決這個問題——該公司仍然制造這種類型的GPU,例如H200 NVL。然而,為了在AI GPU競賽中保持領(lǐng)先,Nvidia優(yōu)先考慮性能,而不顧成本,這就是為什么該公司選擇制造需要數(shù)千瓦功率的GPU,而犧牲空氣冷卻的原因。
好消息是,Nvidia的72芯片Blackwell冷卻問題似乎較輕微,且已大致得到解決。此外,只有Nvidia的旗艦72芯片服務(wù)器機架存在這個問題。
評論