<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁(yè) > 工控自動(dòng)化 > 設(shè)計(jì)應(yīng)用 > IBM高性能計(jì)算機(jī)系統(tǒng)一次重大故障分析

IBM高性能計(jì)算機(jī)系統(tǒng)一次重大故障分析

作者：時(shí)間：2012-05-25 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

收藏

摘要 IBM高性能計(jì)算機(jī)系統(tǒng)承擔(dān)著中國(guó)氣象局主要?dú)庀髿夂驑I(yè)務(wù)科研模式運(yùn)行，整個(gè)系統(tǒng)的數(shù)據(jù)交換網(wǎng)絡(luò)是通過HPS(High Performance switch)來(lái)實(shí)現(xiàn)的。2006年9月21日，IBM高性能計(jì)算機(jī)系統(tǒng)的HPS網(wǎng)絡(luò)發(fā)生故障，導(dǎo)致了科研分區(qū)不能使用，但沒有影響業(yè)務(wù)模式系統(tǒng)。文章主要介紹了這次故障現(xiàn)象和解決辦法，分析了故障發(fā)生的原因，并通過對(duì)故障的分析總結(jié)，探討了目前存在的問題，以及以后的一些工作計(jì)劃和建議。

本文引用地址：http://www.ex-cimer.com/article/202319.htm

引言

IBM高性能計(jì)算機(jī)系統(tǒng)承擔(dān)中國(guó)氣象局主要的天氣氣候業(yè)務(wù)科研模式運(yùn)行，系統(tǒng)在2004年末安裝以來(lái)，運(yùn)行一直比較平穩(wěn)。在整個(gè)系統(tǒng)中，數(shù)據(jù)交換是通過IBM HPS(High Performance Switch)網(wǎng)絡(luò)實(shí)現(xiàn)的，通過SWITCH網(wǎng)絡(luò)為用戶的并行作業(yè)提供通信。如果SWITCH網(wǎng)絡(luò)出現(xiàn)問題，就會(huì)影響模式的運(yùn)行效率，甚至可以導(dǎo)致整個(gè)系統(tǒng)不能使用。在2006年9月21日，科研分區(qū)的SWITCH網(wǎng)絡(luò)故障，導(dǎo)致了整個(gè)科研分區(qū)的癱瘓，9月24日故障恢復(fù)；此次故障對(duì)數(shù)值預(yù)報(bào)系統(tǒng)和動(dòng)力氣候模式預(yù)測(cè)系統(tǒng)的業(yè)務(wù)模式?jīng)]有影響，只是涉及了科研分區(qū)的用戶和作業(yè)。

1 故障基本情況

1．1 故障現(xiàn)象

2006年9月21日，科研分區(qū)的系統(tǒng)性能下降，用戶作業(yè)的運(yùn)算速度比較慢，檢查發(fā)現(xiàn)HPS(High Performance Switch)[1]網(wǎng)絡(luò)的通信狀態(tài)大面積出現(xiàn)異常，影響了GPFS(General Parallel File System)[2]數(shù)據(jù)文件系統(tǒng)和作業(yè)管理軟件L DLEVEL的正常運(yùn)行，導(dǎo)致用戶無(wú)法使用數(shù)據(jù)空間和正常提交用戶作業(yè)，最終導(dǎo)致了用戶無(wú)法使用科研分區(qū)；在SWITCH網(wǎng)絡(luò)通信正常后，GPFS文件系統(tǒng)中的有些文件不能正常訪問。

1．2 處理過程

在故障發(fā)生后，為了確保不影響業(yè)務(wù)，代寫論文對(duì)系統(tǒng)上運(yùn)行的業(yè)務(wù)模式分析并做應(yīng)急處理。系統(tǒng)承擔(dān)的業(yè)務(wù)模式包括數(shù)值預(yù)報(bào)業(yè)務(wù)模式系統(tǒng)和動(dòng)力氣候模式系統(tǒng)，這些業(yè)務(wù)模式都運(yùn)行在業(yè)務(wù)分區(qū)，但是動(dòng)力氣候模式系統(tǒng)的用戶空間掛接在科研分區(qū)的服務(wù)節(jié)點(diǎn)上，為了避免維護(hù)科研分區(qū)時(shí)影響業(yè)務(wù)，緊急切換HACMP(High Available Cluster Multi—Processing)，使文件系統(tǒng)掛接在業(yè)務(wù)分區(qū)。

在確保業(yè)務(wù)可以穩(wěn)定運(yùn)行后，由于當(dāng)時(shí)用戶已無(wú)法使用科研分區(qū)，因此首先申請(qǐng)對(duì)科研分區(qū)進(jìn)行停機(jī)維護(hù)，然后分析并解決故障，處理過程如下。

(1)分析HPS網(wǎng)絡(luò)通信數(shù)據(jù)，發(fā)現(xiàn)F45一S11和F46一S07的兩塊主板上的芯片內(nèi)部通信不正常，決定更換這兩塊主板；但由于備件新?lián)p的原因，只有一塊主板可用，只更換了F46一S07 SWITCH的主板。

(2)在重新加電啟動(dòng)完畢后，仍有大量的HPS網(wǎng)絡(luò)不能通信，導(dǎo)致GPFS不能穩(wěn)定工作，用戶無(wú)法正常提交作業(yè)。

(3)用SWITCH管理界面檢查SWITCH狀態(tài)時(shí)，顯示大量節(jié)點(diǎn)存在光纖卡故障的報(bào)錯(cuò)，但光纖卡的狀態(tài)指示燈顯示正常，更換了5塊光纖卡進(jìn)行檢測(cè)，沒有作用，故排除了大批量光纖卡故障的可能。

(4)收集SWITCH的SNAP數(shù)據(jù)傳給美國(guó)實(shí)驗(yàn)室，對(duì)數(shù)據(jù)進(jìn)行分析；經(jīng)過數(shù)據(jù)的多次收集傳遞，美國(guó)實(shí)驗(yàn)室SWITCH產(chǎn)品專家對(duì)底層數(shù)據(jù)進(jìn)行分析后，建議對(duì)F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50機(jī)柜進(jìn)行電源微碼刷新，刷新為統(tǒng)一的26A6版本后，SWITCH網(wǎng)絡(luò)恢復(fù)正常。

(5)系統(tǒng)啟動(dòng)后，對(duì)科研分區(qū)進(jìn)行檢查，發(fā)現(xiàn)不能正常訪問GPFS文件系統(tǒng)，3個(gè)文件系統(tǒng)均報(bào)I／O讀的錯(cuò)誤，但可以正常寫入數(shù)據(jù)；fsl可以用mmfsck命令進(jìn)行修復(fù)，但fs2和fs3均各有一個(gè)NsD(Net—work Shared Disk)的狀態(tài)為“down”狀態(tài)，然后手工啟動(dòng)GPFS文件系統(tǒng)，整個(gè)系統(tǒng)恢復(fù)正常。

2 故障原因分析

2．1 控制信號(hào)傳輸過程

從圖1可見，IBM 高性能計(jì)算機(jī)系統(tǒng)是通過硬件控制終端HMC(Hardware Management Console)對(duì)主機(jī)和SWITCH的硬件進(jìn)行控制，通過HMC上的SNM (SWITCH Network Manager)軟件管理HPS，在HMC上啟動(dòng)FNMD(Federation Network Manager Daemon)進(jìn)程，實(shí)現(xiàn)對(duì)HPS網(wǎng)絡(luò)的配置、初始化、監(jiān)視、控制、恢復(fù)、分析和診斷。此功能與節(jié)點(diǎn)是否安裝操作系統(tǒng)無(wú)關(guān)，因?yàn)檫@些指令直接由HMC發(fā)起，控制指令都是通過電源傳輸?shù)?，只要電源正常，就?huì)響應(yīng)執(zhí)行，SWITCH的拓?fù)浣Y(jié)構(gòu)是在電源啟動(dòng)的過程中通過自檢獲得的。

每個(gè)HMC系統(tǒng)有一個(gè)RS232串口連接CSP(Common Service Processor)[2]，代寫畢業(yè)論文實(shí)現(xiàn)對(duì)主機(jī)的控制和管理，如開機(jī)、關(guān)機(jī)、關(guān)閉系統(tǒng)、重新啟動(dòng)等；有兩個(gè)RS422串口分別連接節(jié)點(diǎn)和SWITCH機(jī)柜的兩個(gè)BPA(Bulk Power Assembly)電源，實(shí)現(xiàn)對(duì)BPA的監(jiān)視和firmware管理。所有的HPS都是通過BPA提供電源，對(duì)于每一個(gè)SWITCH，通過HMC將信號(hào)發(fā)送給BPA，再通過BPA 將控制信息通過SWITCH的DCA(Distributed Converter Assembly)電源傳送給SWITCH，來(lái)實(shí)現(xiàn)對(duì)SWITCH的管理。

2．2 SWITCH初始化實(shí)現(xiàn)的功能

在啟動(dòng)SWITCH之前，首先要確保HMC已經(jīng)正常啟動(dòng)；在SWITCH 機(jī)柜加電后，由SSP(SWITCH Service Processor)控制SWITCH的加電過程，在每一個(gè)SWITCH芯片的寄存器中記錄本地以及相鄰芯片的機(jī)柜號(hào)、端口號(hào)等信息。

在節(jié)點(diǎn)機(jī)柜加電后，每個(gè)SNI芯片寄存器中保存自己的機(jī)柜號(hào)和GX-BUS信息，并將這些信息傳輸給相鄰的SNI芯片寄存器。

由HMC節(jié)點(diǎn)啟動(dòng)FNM進(jìn)程，對(duì)所有的硬件控制器初始化，配置FNM 網(wǎng)絡(luò)；網(wǎng)絡(luò)配置好以后對(duì)FNM初始化，F(xiàn)NM 將與每個(gè)激活的SWITCH和SNI網(wǎng)絡(luò)部件通信；將FRAME、CHIP、PORT、ROUTE、SWITCH等信息都保存在寄存器中，節(jié)點(diǎn)轉(zhuǎn)入LPAR狀態(tài)后將信息保存在內(nèi)存中，SWITCH初始化完畢。

2．3 故障原因分析

在2006年6月到9月期問，科研分區(qū)共更換了7塊BPA機(jī)柜電源、8塊SWITCH DCA電源、8塊p655 DCA節(jié)點(diǎn)電源。

由于IBM高性能計(jì)算機(jī)系統(tǒng)的有些電源模塊被更換，并且有些備件號(hào)發(fā)生了變化，雖然新備件可以實(shí)現(xiàn)對(duì)原備件的替代功能，但是新舊電源備件的微碼版本部分存在不一致；而SWITCH的控制信息是通過HMC—BPA—DCA進(jìn)行傳送，電源相關(guān)部件微碼版本的不一致影響了信息的正常傳送，進(jìn)而影響SWITCH的網(wǎng)絡(luò)初始化，不能得到正確的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，導(dǎo)致不能建立正常的SwITCH通路；而通過刷新一次機(jī)柜電源BPA同版本微碼，使電源模塊上的通信進(jìn)程狀態(tài)重新初始化(歸零操作)，清除了電源模塊上的錯(cuò)誤通信信息記錄，可以將控制信息正確傳送，重新建立了正確的網(wǎng)絡(luò)通路。

GPFS文件系統(tǒng)不能正常讀寫主要是由于SWITCH網(wǎng)絡(luò)通信不穩(wěn)定，GPFS的通信頻繁發(fā)生中斷，所以GPFS的文件系統(tǒng)也會(huì)頻繁異常上線或離線(mount或umount狀態(tài))，使GPFS文件系統(tǒng)控制的有些硬盤上的NSD(Network Shared Disk)控制信息不一致，GPFS為了保證數(shù)據(jù)的安全性，系統(tǒng)自動(dòng)對(duì)此NSD進(jìn)行了隔離操作。

3 故障事件的分析和啟發(fā)

從這次發(fā)生的故障情況來(lái)看，由于在系統(tǒng)本身設(shè)計(jì)和日常維護(hù)的過程中考慮了高可靠性和對(duì)于用戶數(shù)據(jù)的一致性管理，因此在科研分區(qū)出現(xiàn)問題的情況下，并沒有影響業(yè)務(wù)作業(yè)的正常運(yùn)行，這是對(duì)系統(tǒng)高可靠性的一次檢驗(yàn)；但同時(shí)通過這次故障事件，也發(fā)現(xiàn)了我們的許多不足，并且也為日常維護(hù)提供了一個(gè)經(jīng)驗(yàn)和教訓(xùn)。

3．1 系統(tǒng)可靠性驗(yàn)證

由于在系統(tǒng)設(shè)計(jì)上考慮了用戶文件系統(tǒng)高可用性的設(shè)計(jì)以及全局的用戶環(huán)境一致性，代寫職稱論文同時(shí)在日常維護(hù)工作中對(duì)用戶文件系統(tǒng)都做了備份，因此對(duì)業(yè)務(wù)用戶沒有造成影響。

3．2 系統(tǒng)本身的問題

SWITCH設(shè)備故障率比較高：從系統(tǒng)投入運(yùn)行以來(lái)，SWITCH設(shè)備的故障率就比較高。2006年5月1日到10月31日期問，科研分區(qū)就出現(xiàn)了39次SWITCH硬件故障，其中光纖卡故障22次，銅卡故障6次，主板故障1次、電源故障10次；業(yè)務(wù)分區(qū)有17次SWITCH硬件故障，其中光纖卡故障8次，電源故障9次。

故障診斷定位難：在對(duì)SWITCH設(shè)備維護(hù)時(shí)，光纖卡和銅卡的故障診斷相對(duì)容易，故障現(xiàn)象明顯，有冗余連接，一般不影響系統(tǒng)和用戶的正常使用；而SWITCH背板故障及電源微碼不一致等故障，則不容易定位具體的故障點(diǎn)，對(duì)系統(tǒng)的影響也比較大。

3．3 日常維護(hù)及管理問題

日常維護(hù)不夠深入：在日常的維護(hù)過程中，主要還是停留在處理現(xiàn)象明顯的軟硬件故障，并沒有對(duì)系統(tǒng)的一些潛在故障進(jìn)行分析研究，而且對(duì)系統(tǒng)了解不夠深入，在出現(xiàn)大的故障時(shí)不知如何判斷處理。

管理流程不完善：從本次故障來(lái)看，備件不能滿足在重大情況下的處理要求；廠家技術(shù)支持不暢通，響應(yīng)速度慢，這都直接延長(zhǎng)了故障恢復(fù)時(shí)問。

4 后續(xù)工作和建議

此次故障發(fā)生后，陸續(xù)完成和制定了一些工作計(jì)劃。

(1)完成了業(yè)務(wù)分區(qū)電源微碼的檢查。察看了業(yè)務(wù)分區(qū)SWITCH的微碼版本，發(fā)現(xiàn)也存在需要重新安裝的警告提示，但是由于報(bào)錯(cuò)的機(jī)柜比較少，并沒有對(duì)系統(tǒng)造成影響，目前已經(jīng)完成對(duì)業(yè)務(wù)分區(qū)電源微碼的統(tǒng)一刷新。

(2)制定了IBM 高性能計(jì)算機(jī)系統(tǒng)業(yè)務(wù)應(yīng)急備份方案。當(dāng)遇到緊急情況時(shí)，能夠快速評(píng)估當(dāng)前狀況并進(jìn)行處理。

(3)完成了系統(tǒng)存儲(chǔ)資源的擴(kuò)充。擴(kuò)大了目前用戶的存儲(chǔ)資源，并滿足了業(yè)務(wù)應(yīng)用系統(tǒng)備份的資源需求。

(4)完成了HPGS系統(tǒng)的微碼升級(jí)。2007年4月已經(jīng)將整個(gè)系統(tǒng)HPS的Service Pack版本級(jí)別升級(jí)到21。

(5)加強(qiáng)管理。督促?gòu)S家人員完善技術(shù)緊急支持的響應(yīng)速度和流程，保證技術(shù)支持的暢通；同時(shí)要確保備件的充足可用。

(6)加強(qiáng)維護(hù)手段和交流。在日常維護(hù)中，代寫工作總結(jié) 不僅是滿足于簡(jiǎn)單的問題解決，需要深入分析診斷，找到問題的真正原因，避免潛在的隱患故障；同時(shí)要多通過學(xué)習(xí)以及技術(shù)交流，加深對(duì)全系統(tǒng)的了解，不斷提高維護(hù)水平，提高自己的故障解決能力。

5 結(jié)束語(yǔ)

此次故障雖然沒有對(duì)我們的業(yè)務(wù)造成影響，但是通過此次故障情況，我們看到了我們還存在的許多不足，需要我們?cè)谝院蟮墓ぷ髦屑右愿倪M(jìn)。通過不斷地分析和總結(jié)，維護(hù)好我們的系統(tǒng)，保持系統(tǒng)高效穩(wěn)定的運(yùn)行。

參考文獻(xiàn)

[1] IBM，Inc．An Introduction to the New IBM F．server pS~#39;ie8 High Performance SWITCH [EB／OL]．http：//www．redbooks．ibm．com／Redbooks．nsf／RedbookAbstracts／SG246978．htm1．

[2] IBM，Inc．General Parallel File System Administration and Pro．gramming Reference[EB／OL]．http：//publib．boulder．ibm．comAnfocenter／dresetr／vxrxAndex．jsp?topic=／corn．ibm ．clus—ter．gpfs．doc／gpfsbooks．htm1．

更多計(jì)算機(jī)與外設(shè)信息請(qǐng)關(guān)注：21ic計(jì)算機(jī)與外設(shè)頻道

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： IBM 高性能計(jì)算 系統(tǒng) 故障分析

評(píng)論

相關(guān)推薦

IGBT在電磁爐中應(yīng)用的系統(tǒng)框圖

設(shè)計(jì)方案電磁爐中應(yīng) 用的系統(tǒng) 框圖 | 2009-07-06

Upgrading a bsp for tornado2.2

資源下載 Tornado VxWorks 系統(tǒng) 通訊軟件包 C C++ | 2007-02-09

AIX Reference for Sun Solaris Administrators.part2.rar

資源下載 IBM SUN Solaris Solaris系統(tǒng) AIX操作系統(tǒng) | 2007-02-09

大家在互相借鑒吧!--嵌入式系統(tǒng)詞匯表

jackwang | 2002-05-14

AIX Reference for Sun Solaris Administrators.part3.rar

資源下載 IBM SUN Solaris Solaris系統(tǒng) AIX操作系統(tǒng) | 2007-02-09

谷歌對(duì)IBM說：大科技巨頭如何擁抱Nvidia的新硬件和軟件服務(wù)

智能計(jì)算英偉達(dá)，谷歌，IBM | 2024-03-21

大家在互相借鑒吧!--嵌入式系統(tǒng)詞匯表

jackwang | 2002-05-14

大嘴業(yè)話-格芯起訴IBM

視頻芯片，IBM，格羅方德，半導(dǎo)體，AMD | 2023-05-18

規(guī)模較目前高出一個(gè)數(shù)量級(jí)，消息稱 IBM 將聯(lián)手日本 AIST 建設(shè)下代量子計(jì)算機(jī)

智能計(jì)算 IBM 量子計(jì)算機(jī) AIST | 2024-06-17

穿越百年孤獨(dú)的半導(dǎo)體大廠

國(guó)際視野 IBM 英飛凌東芝 | 2024-02-27

DUM23―48／300II組合電源系統(tǒng)框圖

設(shè)計(jì)方案 DUM23 300II 組合電源系統(tǒng) 框圖 | 2009-07-06

IBM將以64億美元收購(gòu)開源軟件公司HashiCorp

智能計(jì)算 IBM HashiCorp 云基礎(chǔ)設(shè)施 AI | 2024-04-26

大家在互相借鑒吧!--嵌入式系統(tǒng)詞匯表

jackwang | 2002-05-14

IBM + X-POWER + 源卓微納：以AI會(huì)友，共創(chuàng)制造業(yè)智能化故事2.0

智能計(jì)算 IBM X-POWER 源卓微納 AI 制造業(yè)智能化 | 2024-03-18

AIX Reference for Sun Solaris Administrators.part1.rar

資源下載 IBM SUN Solaris Solaris系統(tǒng) AIX操作系統(tǒng) | 2007-02-09

萬(wàn)字長(zhǎng)文，IBM量子計(jì)算負(fù)責(zé)人Jerry Chow談量子計(jì)算的未來(lái)

智能計(jì)算 IBM 量子計(jì)算 | 2023-12-27

Rapidus與IBM達(dá)成合作，瞄準(zhǔn)2nm

EDA/PCB Rapidus IBM 2nm | 2024-06-11

本田和IBM將在半導(dǎo)體和軟件技術(shù)方面展開合作

汽車電子本田 IBM 軟件定義車輛 SDV | 2024-05-22

通信站電源配電系統(tǒng)圖

設(shè)計(jì)方案通信電源配電系統(tǒng) | 2009-07-06

嵌入式操作系統(tǒng)大比拼

jackwang | 2002-05-13

模擬力學(xué)系統(tǒng)的電路

設(shè)計(jì)方案模擬力學(xué) 系統(tǒng) 電路 | 2009-07-06

大家在互相借鑒吧!--嵌入式系統(tǒng)詞匯表

jackwang | 2002-05-14

Linux?系統(tǒng)應(yīng)用開發(fā)入門介紹培訓(xùn)教程

視頻 Microchip Linux?系統(tǒng) microchip eRTC | 2021-01-05

蘋果 iOS 18 / macOS 15 預(yù)計(jì)升級(jí)設(shè)置應(yīng)用：重整布局、簡(jiǎn)化導(dǎo)航、增強(qiáng)搜索

手機(jī)與無(wú)線通信蘋果 iOS 18 系統(tǒng) | 2024-06-03

HL610A在三相變頻調(diào)速系統(tǒng)中的應(yīng)用

設(shè)計(jì)方案 HL610A 三相變頻調(diào)速系統(tǒng) 中的應(yīng)用 | 2009-07-06

TCP/IP2.1

資源下載 IBM TCP/IP2.1 | 2007-02-16

協(xié)作創(chuàng)新平臺(tái)——IBM微電子和Power架構(gòu)

視頻 IBM 微電子 Power架構(gòu) | 2009-12-21

本田與IBM簽署合作，探索未來(lái)軟件定義汽車的長(zhǎng)期聯(lián)合研發(fā)

國(guó)際視野本田新能源汽車 IBM | 2024-05-21

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();