液冷AI服務器,出現(xiàn)瓶頸
業(yè)內人士稱,液冷解決方案的通用快速斷開裝置(UQD)供應已趨于緊張,這可能成為 AI 服務器液冷增長的主要瓶頸。
本文引用地址:http://www.ex-cimer.com/article/202407/461343.htm服務器 ODM 廠商指出,Nvidia 的 Blackwell AI 芯片,包括 B100 和 B200,將于今年開始出貨,但 GB200 解決方案要到 2024 年底或 2025 年才會開始量產。
B100、B200 客戶目前大多仍采用風冷散熱設計,不過據(jù) ODM 廠商反映,液冷滲透率持續(xù)提升,預估隨著 Blackwell 芯片出貨量的增加,客戶采用液冷的意愿也會提升。
擴大產能以應對液體冷卻需求的增加
相關企業(yè)紛紛擴大生產,迎接液冷新時代。散熱模塊廠商晶晨科技計劃將水冷板月產能從 3 萬片提升 10 倍至 30 萬片。
Auras 在泰國設立新工廠,以響應客戶的地緣政治擔憂和要求。該工廠預計將于第三季度開始量產。除了擴大冷板的本地產能外,Auras 還計劃在本地生產冷卻分配單元 (CDU) 和冷卻液分配歧管 (CDM),計劃月產能約為 2,000-3,000 套。
散熱模組廠 AVC 在近期財報電話會議上指出,其中國及越南工廠的冷板模組月產能約為 11.5 萬臺,若以冷板計算,則月產量約 42 萬臺,AVC 計劃年底前將產能擴大 50%。
AVC 還計劃將 CDU 的月產能擴大至 1,000 臺,將 CDM 的月產能擴大至 30,000 套。AVC 強調,這一計劃產能可根據(jù)客戶訂單需求靈活調整。
熱能技術公司高力熱處理因客戶對液冷產能需求增加,正擴大臺灣中壢廠區(qū)產能,預計第三季末 CDM 月產能將從 1,000 臺增至 2,000 臺,年底將增至 4,000 臺,行內 CDU 年產能也將在年底達到 2,000 臺。
上述廠商均對液冷需求抱有較高期待,主要原因在于中國與歐盟的運算效率與數(shù)據(jù)中心 PUE 規(guī)范,但最重要因素還是 Nvidia 解除了對芯片廠商散熱規(guī)格自我限制。
液冷快速增長導致 UQD 短缺
在大家熱切期盼液冷時代來臨之際,UQD 成為成長的最大瓶頸,散熱模塊廠指出,近期 UQD 供貨吃緊,雖然液冷目前市占率只有個位數(shù),但未來若上升至兩位數(shù),UQD 恐將一票難求。
UQD 供應商多來自歐美,如美國大廠 Parker Hannifin 與 CPC、瑞士 Staubli International、丹麥 Danfoss、瑞典 Cejn 等,臺灣連接器零組件大廠 Lotes 也積極入市,并已開始送樣。
安博科技董事長梁志堅指出,由于液冷最看重的是避免泄漏,而 UQD 是最容易發(fā)生泄漏的元件,因此 UQD 的供貨是液冷元件中最緊張的。這不僅是技術問題,相關廠商也有專利保護,安博科技正在研究如何突破這些專利壁壘。
業(yè)界表示,UQD 廠商有專利保護,但同時也需要經過層層驗證,包括 OCP 認證、客戶端驗證等耗時耗力,加上現(xiàn)有歐美廠商無擴充產能意向,將成為液冷快速發(fā)展的主要瓶頸。
Supermicro 是成長最快的液冷廠商之一,創(chuàng)始人兼首席執(zhí)行官梁見后指出,過去 30 年,液冷僅占服務器市場的 1%,但他預估 2025 年滲透率將躍升至 30%。
液體冷卻成為潛在解決方案,人工智能繁榮給電網(wǎng)帶來壓力
生成式人工智能的快速發(fā)展推動了數(shù)據(jù)中心前所未有的擴張,引發(fā)了人們對其對電網(wǎng)影響的擔憂。這些耗電設施可能會導致停電并增加能源成本。
據(jù)電力研究所估計,到 2030 年,數(shù)據(jù)中心可能消耗美國 9% 的電力,是目前的兩倍。一個大型數(shù)據(jù)中心的用電量相當于數(shù)十萬戶家庭的用電量。
人工智能不斷增加的電力需求尤其令人擔憂。早期的人工智能模型消耗的電量是谷歌搜索的十倍,而較新的芯片對能源的需求甚至更高。專家警告稱,未來人工智能的發(fā)展可能會受到我們產生足夠電力的能力的限制。
一些國家面臨嚴峻挑戰(zhàn)。例如,到 2026 年,愛爾蘭可能會有 30% 的電力用于數(shù)據(jù)中心。在美國,數(shù)據(jù)中心的用電集中在 15 個州,其中得克薩斯州和弗吉尼亞州最多。加利福尼亞州的情況危急,預計新建的數(shù)據(jù)中心可能會產生超過核電站發(fā)電量的電力需求。
數(shù)據(jù)中心:巨大的能源消耗和液體冷卻的興起
人工智能的計算需求正在推高服務器溫度和碳排放,從而導致冷卻系統(tǒng)需求大幅增加。冷卻系統(tǒng)占數(shù)據(jù)中心總電力消耗的 40%,是僅次于服務器本身的第二大電力消耗來源。
全球服務器冷卻市場預計將從 2024 年的 200 億美元增長到 2027 年的 900 億美元。數(shù)據(jù)中心的液體冷卻系統(tǒng)預計將從 1% 增加到 22%,市場價值在未來三年內從 3.17 億美元增長到 78 億美元。
使用水或冷卻劑來冷卻服務器的液體冷卻解決方案正日益流行。新技術包括浸入式冷卻(將整個服務器機架浸入非導電液體中)和直接液體冷卻(在服務器周圍循環(huán)水)。雖然目前比空氣冷卻系統(tǒng)更昂貴,但液體冷卻可以將數(shù)據(jù)中心的功耗降低 10% 或更多。
研究公司 Global Market Insights 預測,全球數(shù)據(jù)中心液體冷卻市場規(guī)模將從 2022 年的 21 億美元增長到 2032 年的 122 億美元。Uptime Institute 的一項調查發(fā)現(xiàn),16% 的數(shù)據(jù)中心經理認為液體冷卻將在 1-3 年內成為數(shù)據(jù)中心的主要冷卻方法,而 41% 的人認為這將需要 4-6 年。因此,混合冷卻方法在短期內更有可能出現(xiàn)。
數(shù)據(jù)中心風冷系統(tǒng)管理領域的領導者 Upsite Technologies 指出,雖然技術在不斷進步,但短期內不太可能實現(xiàn) 100% 液冷數(shù)據(jù)中心,液冷設備仍然需要風冷來散熱。
雖然液體冷卻也更高效,但難以大規(guī)模實施,而且需要大量的前期投資??諝饫鋮s成本較低,但效率較低。因此,混合冷卻設施正變得越來越受歡迎,以最大限度地發(fā)揮液體和空氣冷卻的優(yōu)勢。
數(shù)據(jù)中心能源危機引發(fā)緊急行動呼吁
由于數(shù)據(jù)中心對環(huán)境的影響,它們受到越來越多地關注。世界各國政府都在實施法規(guī),以控制其能源消耗和碳足跡。中國的「綠色數(shù)據(jù)中心」指南以及德國、新加坡和日本的類似舉措就是這一趨勢的例子。
施耐德電氣等行業(yè)專家強調,需要采用全面的環(huán)境指標來評估數(shù)據(jù)中心的可持續(xù)性。這包括能源使用以外的因素,例如水資源和廢物產生。
美國政府正在向大型科技公司施壓,要求他們投資清潔能源,并認識到生成人工智能不斷增長的電力需求對環(huán)境產生的重大影響。
尋找合適的電源:數(shù)據(jù)中心和能源挑戰(zhàn)
數(shù)據(jù)中心需要多樣化的能源組合,以平衡可靠性和可持續(xù)性,滿足不斷增長的需求。
太陽能和風能等可再生能源因其低碳足跡而頗具吸引力。然而,它們對天氣條件的依賴可能導致輸出不穩(wěn)定,因此不適合作為數(shù)據(jù)中心的唯一電源。建造冗余設施來彌補這種不一致性可能是必要的,但成本很高。
核電成為一種潛在的解決方案。傳統(tǒng)核電站提供可靠的基載電力,產生對數(shù)據(jù)中心運營至關重要的穩(wěn)定電力。此外,全球核電市場預計將在未來十年實現(xiàn)穩(wěn)步增長。
核能領域的創(chuàng)新提供了更多有希望的可能性。小型模塊化反應堆 (SMR) 正在開發(fā)中,作為傳統(tǒng)核電站的更小、更安全、更具可擴展性的替代品。雖然仍處于研發(fā)階段,但 SMR 有可能直接部署在數(shù)據(jù)中心,提供專用的清潔能源。
然而,SMR 的廣泛應用面臨重大障礙。監(jiān)管和制造方面的挑戰(zhàn)可能會使其商業(yè)部署推遲數(shù)年。美國政府正在積極探索解決方案,包括與科技巨頭合作以降低成本并簡化流程。
減少數(shù)據(jù)中心能源需求的另一種方法是優(yōu)化人工智能工作負載。通過將一些人工智能任務從云端轉移到具有較小、資源密集度較低的人工智能模型的本地設備,可以降低總體能耗。
數(shù)據(jù)中心的未來發(fā)展需要多管齊下。采用多元化的能源組合,包括核能等可靠能源,同時積極尋求 SMR 等可再生和創(chuàng)新解決方案至關重要。此外,優(yōu)化本地設備上的 AI 工作負載可以進一步促進數(shù)據(jù)中心的可持續(xù)發(fā)展。
評論