<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計(jì)算 > 業(yè)界動態(tài) > Meta訓(xùn)練Llama 3遭遇頻繁故障

          Meta訓(xùn)練Llama 3遭遇頻繁故障

          作者: 時(shí)間:2024-07-29 來源:IT之家 收藏

          7 月 28 日消息, 發(fā)布的一份研究報(bào)告顯示,其用于訓(xùn)練 4050 億參數(shù)模型 的 16384 個(gè) 集群在 54 天內(nèi)出現(xiàn)了 419 次意外故障,平均每三小時(shí)就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內(nèi)存(HBM3)引起的。

          本文引用地址:http://www.ex-cimer.com/article/202407/461443.htm

          由于系統(tǒng)規(guī)模巨大且任務(wù)高度同步,單個(gè)顯卡故障可能導(dǎo)致整個(gè)訓(xùn)練任務(wù)中斷,需要重新開始。盡管如此, 團(tuán)隊(duì)還是保持了 90% 以上的有效訓(xùn)練時(shí)間。

          IT之家注意到,在為期 54 天的預(yù)預(yù)訓(xùn)練中,共出現(xiàn)了 466 次工作中斷,其中 47 次是計(jì)劃中斷,419 次是意外中斷。計(jì)劃內(nèi)的中斷是由于自動化維護(hù)造成的,而意外的中斷則主要源于硬件問題。 問題是導(dǎo)致故障的主要原因,占意外中斷的 58.7%。其中只有三起事件需要大量人工干預(yù),其余的由自動化管理。

          無標(biāo)題.jpg

          在 419 個(gè)意外中斷中,148 個(gè)(30.1%)是由各種 故障(包括 NVLink 故障)引起的,而 72 個(gè)(17.2%)是由 的 HBM3 內(nèi)存故障引起的。有趣的是,54 天內(nèi)只有兩個(gè) CPU 發(fā)生故障。41.3% 的意外中斷是由多種因素造成的,包括軟件錯(cuò)誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

          為提高效率, 團(tuán)隊(duì)開發(fā)了一系列工具和優(yōu)化策略,包括縮短任務(wù)啟動和檢查點(diǎn)時(shí)間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外,Meta 還關(guān)注到了環(huán)境因素的影響,如午間溫度波動對 GPU 性能的輕微影響,以及巨量 GPU 同時(shí)運(yùn)行對數(shù)據(jù)中心電網(wǎng)的巨大壓力。

          然而,隨著人工智能模型參數(shù)量的不斷增加,所需的計(jì)算資源也隨之?dāng)U大。以 xAI 計(jì)劃中的 10 萬塊 集群為例,故障率可能會成倍增長,給未來的 AI 訓(xùn)練帶來更大的挑戰(zhàn)。



          關(guān)鍵詞: Meta Llama 3 英偉達(dá) H100 顯卡 GPU

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();