<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計算 > 設計應用 > 算力網絡與傳統(tǒng)網絡有何不同

          算力網絡與傳統(tǒng)網絡有何不同

          作者: 時間:2025-01-03 來源:是德科技 收藏

          隨著人工智能(AI)和機器學習(ML)的日益普及,對數據中心網絡的需求也在增長。

          本文引用地址:http://www.ex-cimer.com/article/202501/465997.htm

          本白皮書分析了AI網絡的新要求、獨特的AI流量模式,以及如何利用現有技術使以太網網絡適應運行高性能AI工作負載。此外,還討論了Keysight解決方案如何幫助優(yōu)化AI網絡。

          新的網絡要求

          支持AI和ML的網絡在要求和流量模式上與傳統(tǒng)數據中心網絡存在顯著差異。在傳統(tǒng)數據中心和AI數據中心之間,數據的類型、數量和流量模型都有很大的不同。大型AI集群的硬件投資高達數億美元,通過優(yōu)化可以顯著減少模型訓練所需的時間。

          傳統(tǒng)數據中心

          在傳統(tǒng)數據中心網絡中,常見的工作負載包括單個查詢或定時作業(yè),如夜間作業(yè)。這些工作負載變化很大,流量分布在不同的會話上。整個網絡負載在單個鏈路上均勻分布,隨著用戶數量的增加而成比例增長。通常,延遲或丟失的數據包不會造成重大問題。例如,銀行后端系統(tǒng)處理單個賬戶余額的網頁請求或計算利息的夜間作業(yè)。

          AI數據中心

          相比之下,數據中心中的AI集群需要表現得像超級計算機,配備成千上萬的圖形處理單元(GPU)和數百個CPU及交換機。在AI集群中,所有GPU都致力于解決同一個問題。構建大型語言模型(LLM)可能需要數天或數周時間。通過最快的網絡鏈路相互連接,這些GPU需要移動大量數據,不能在任何鏈路上丟失數據包或遇到擁堵。因為所有GPU都在處理同一個問題,所以當最后一個GPU完成處理時,任務就完成了。一旦構建完成,LLM可以遷移到較小的GPU或基于CPU的前端計算機系統(tǒng)。然后,用戶可以使用模型,看看它在訓練期間學到的信息應用得如何。這個過程被稱為推理。本文僅討論后端LLM訓練。

          擴展性

          擴展傳統(tǒng)數據中心時,優(yōu)化主要取決于比較查詢響應的服務級別(SLA)與實際結果。例如,檢索支票賬戶余額的響應可能在毫秒級,而大型夜間作業(yè)可能需要數小時。若結果未達預期時效,運維人員可以調整服務器數量和網絡速度。

          然而,擴展AI集群需要優(yōu)化構建模型的時間。新模型構建可能需數周或數月。即使縮短幾天,也能釋放AI數據中心價值數百萬美元的GPU,用于下一工作。增加GPU成本高昂,且數量有限。因此,首要優(yōu)化目標是降低GPU的空閑時間,并在增加容量前消除網絡擁塞。

          在AI集群中,GPU共同學習以訓練模型。任何影響一個GPU的數據包延遲或丟失都可能顯著延長任務完成時間,因為其他GPU將處于空閑狀態(tài)。盡管需要高速網絡鏈路,但這還不夠。關鍵在于配置AI網絡,利用現代以太網網絡的多種技術避免擁塞。

          新的流量模式

          AI數據中心的網絡流量模式與傳統(tǒng)數據中心不同。工作負載分布在數百或數千個GPU之間,涉及大量數據的發(fā)送和接收。與大小不定的互聯(lián)網流量不同,AI數據大小具有有限的隨機性。AI集群在GPU計算和GPU間共享計算結果之間經歷快速、高頻率的轉換。GPU在發(fā)送或等待信息時處于空閑狀態(tài)。流量可能突發(fā),呈現特定模式,如多個GPU相互發(fā)送數據,導致內部擁堵。

          長尾效應

          AI網絡性能衡量的是完成時間最長的流量,而非平均帶寬。這些長尾顯著影響任務完成時間,進而影響GPU利用率。例如,若平均流量完成時間為150毫秒,但一個GPU的最長完成時間為190毫秒,則所有GPU的實際總體完成時間為190毫秒。詳情見圖1。

          圖1. 關鍵評估指標示例

          網絡優(yōu)化中的平衡至關重要

          在此例中,某些GPU獲取數據速度遠快于其他GPU。優(yōu)化的目標并非將數據盡可能快地移動至特定GPU,而是平衡網絡,確保所有GPU幾乎同時接收到數據,避免空閑。實際上,這涉及加快慢速流程,減慢快速流程。GPU一旦從彼此處接收到數據,即可啟動下一計算周期。這種優(yōu)化網絡能最大化GPU利用率。

          類比來說,就像100顆大理石懸掛在網上,網孔僅比大理石略大。若將所有大理石投入網中,部分會迅速落下,但許多會聚在一起,最后一個落下需時較長。若通過某種通道引導大理石入孔,即使第一個大理石通過時間較長,所有大理石整體通過速度將更快。這里的網孔代表網絡鏈路,大理石則代表GPU的流量。

          相較之下,傳統(tǒng)數據中心流量包含許多不同時間發(fā)生的大小不一的流量,連接眾多客戶端。平衡此類流量網絡鏈路相對簡單,有時甚至能自我平衡。然而,AI流量涉及始終向所有節(jié)點發(fā)送大量流量,平衡難度更大。

          何時升級AI網絡?

          AI的運營模式已發(fā)生改變

          在傳統(tǒng)數據中心,當鏈路利用率接近50%時,便會考慮升級。而在AI數據中心,鏈路利用率可高達90%。即使所有鏈路速度奇跡般地加倍,鏈路利用率依然會保持在較高水平。

          新型以太網網絡配置

          以太網網絡在現今數據中心中占據主導地位,公司可以對其進行優(yōu)化和配置,以支持AI網絡。構建、部署、管理和排查這些網絡所需的技能,通??赏ㄟ^內部資源或外部承包商和顧問獲得。公司可以利用這些現有技能,為AI配置以太網網絡,避免擁塞影響GPU利用率。

          現代以太網協(xié)議通過優(yōu)先級流量控制(PFC)、顯式擁塞通知(ECN)、數據中心量化擁塞通知(DCQCN)和分組噴濺等技術,管理數據中心網絡的流量和擁塞。讓我們簡要了解這些技術。

          從PFC和ECN開始調優(yōu)

          PFC允許交換機在其緩沖區(qū)達到特定閾值時,向上游設備發(fā)送暫停幀,停止該隊列的流量。這種方法雖可防止數據包丟失,但單獨使用并非最佳解決方案。網絡可能會運行緩慢,隊列頻繁啟停。

          ECN則在設備間提供擁塞通知,使發(fā)送設備降低流量速率。DCQCN協(xié)調ECN和PFC的工作。

          DCQCN是一種算法,通過在擁塞開始時降低傳輸速率,使ECN能夠管理流量控制,從而減少PFC的持續(xù)時間。調整DCQCN較為復雜,還有其他改善AI網絡配置的途徑。

          進一步優(yōu)化AI網絡的選項

          在傳統(tǒng)的數據中心中,等價多路徑(ECMP)是一種常用的路由策略,它通過平衡網絡流量來實現網絡優(yōu)化。然而,在AI網絡中,由于單個AI流量可能會占滿整個鏈路,這種策略就會面臨挑戰(zhàn)。對于AI網絡來說,更有效的方法是在數據包級別進行網絡平衡。例如,數據包噴濺以及其他形式的負載均衡技術,如動態(tài)負載均衡、基于小單元的路由和確定性路由,可以將數據包分散到可用的網絡鏈路上。與AI集合通信中的流量相比,這些數據包體積小,可以顯著提高鏈路利用率。

          在硬件層面,遠程直接內存訪問(RDMA)技術允許兩個服務器之間的應用程序直接交換數據,無需經過處理器、操作系統(tǒng)、緩存或網絡內核。這意味著應用程序可以直接在遠程服務器的內存上進行讀寫操作,無需使用任何服務器的處理器,從而實現更快的數據傳輸和更低的延遲。基于融合以太網的RDMA(RoCE)在以太網網絡中提供了這種機制。

          無損以太網網絡的構建

          通過結合上述技術和為每種技術設置適當的參數,構建一個無損以太網網絡是可行的。 無損以太網網絡的協(xié)議已經存在,同時也有工具來提供基準測試,所需的管理應用程序,以及網絡工程師和架構師的知識體系都已完備。

          行業(yè)專家們正在為AI開發(fā)新的以太網能力和創(chuàng)新技術。比如,超以太網聯(lián)盟正在致力于標準化高性能以太網能力,并簡化配置和管理,作為其AI網絡增長路線圖的一部分。 挑戰(zhàn)在于如何在部署前驗證設計和目標。

          優(yōu)化AI網絡的新方法

          為了提供AI網絡的測試基準,需要模擬AI訓練的流量模式,并通過能夠模擬GPU和RDMA網絡接口卡(NIC)的網絡流量發(fā)生器發(fā)送這些數據。GPU支持RDMA NIC,這使得GPU之間的數據訪問變得更快捷。

          需要模擬的流量類型

          系統(tǒng)應能夠可重復地創(chuàng)建由AI集群中集合通信產生的不同數據模式和大小的場景。這些流量包括模擬隊列對(Q-pair)連接和流,生成擁塞通知,執(zhí)行基于DCQCN的動態(tài)速率控制,并提供測試吞吐量、緩存管理以及ECMP哈希的靈活性。

          工程團隊可以使用支持RoCE v2 / RDMA的網絡流量發(fā)生器,在實驗室或灰度環(huán)境中根據性能測量結果對設計進行改進,而不依賴于GPU加速卡。一個有效的AI網絡優(yōu)化解決方案應具備定義AI系統(tǒng)配置以模擬工作負載的靈活性,包括GPU的數量、NIC的數量、擁塞控制設置(如PFC和DCQCN)、數據大小、Q-pair特性以及模擬NIC的配置,靈活的配置可以使基準測試更高效和可重復。進行不同數據大小的基準測試,提供完成時間、算法和總線帶寬等關鍵性能指標的結果是優(yōu)化AI網絡的重要步驟,了解單個RoCEv2 Q-pair的統(tǒng)計指標細節(jié)對于排錯和定位也很關鍵。

          結論

          AI數據中心網絡的要求和流量模式與傳統(tǒng)數據中心網絡有顯著差異。優(yōu)化AI網絡的范式不同,人們期望網絡能夠以接近滿載和無損的方式運行。一個關鍵策略是優(yōu)化網絡以提升GPU利用率。雖然有許多傳統(tǒng)以太網的調優(yōu)方法,但效果并不直觀、復雜程度高。

          Keysight的工具用于提供基準測試和優(yōu)化AI網絡,工具充分利用了現有的數據中心工程技能、知識體系和測試方法學,可以避免手動、耗時的操作。有了這些工具,網絡架構師可以使用Keysight AI(KAI)數據中心構建器來模擬網絡負載和GPU行為,結合硬件儀表方案,主動識別瓶頸并調整網絡配置,調優(yōu)網絡性能。從而最終顯著提升GPU利用率——最小化資源浪費并大幅降低網絡GPU的開支。



          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();