淺淡網(wǎng)絡(luò)運(yùn)維的緊急故障處理及對(duì)策
標(biāo)簽:網(wǎng)絡(luò)維護(hù) 內(nèi)網(wǎng)服務(wù) 外網(wǎng)服務(wù)
本文引用地址:http://www.ex-cimer.com/article/154534.htm隨著信息化進(jìn)程的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為每個(gè)現(xiàn)代企業(yè)必須的要素之一。相對(duì)于網(wǎng)絡(luò)維護(hù),網(wǎng)絡(luò)運(yùn)維更加側(cè)重于保障網(wǎng)絡(luò)系統(tǒng)的正常運(yùn)行,運(yùn)維有運(yùn)行和維護(hù)兩層含義。對(duì)于一個(gè)系統(tǒng),有時(shí)出錯(cuò)我們無法預(yù)知,系統(tǒng)越復(fù)雜,其難維護(hù)難度更大,為了減少損失,我們盡可能地去預(yù)防各種錯(cuò)誤,對(duì)于突發(fā)情況,盡可能地去修復(fù)。
圖一
根據(jù)上述流程圖,我們可以一目了然明白處理網(wǎng)絡(luò)運(yùn)維的緊急故障的處理流程。
當(dāng)客戶端發(fā)生網(wǎng)絡(luò)中斷的故障后,首先判斷用戶(或終端)到三層網(wǎng)關(guān)設(shè)備之間通道是否存在問題,從用戶(或終端)上ping網(wǎng)關(guān)是否能通,用戶(或終端)自身是否發(fā)生問題。
二層網(wǎng)絡(luò)是否正常:如果用戶(或終端)ping網(wǎng)關(guān)不通,則檢查下端二層網(wǎng)絡(luò)、用戶網(wǎng)線、三層網(wǎng)關(guān)設(shè)備以下網(wǎng)線或光纖是否正常,端口是否UP,是否有CRC error報(bào)文統(tǒng)計(jì)。檢查二層網(wǎng)絡(luò)中的交換機(jī)設(shè)備是否能正常學(xué)習(xí)到用戶MAC地址,檢查三層網(wǎng)關(guān)設(shè)備與二層交換設(shè)備之間的連通性、二層設(shè)備的CPU利用率是否正常,是否有二層環(huán)路造成或病毒攻擊。首先確保用戶(或終端)能正常ping通網(wǎng)關(guān)設(shè)備。
三層網(wǎng)絡(luò)是否正常:可以通過telnet/console口登陸三層設(shè)備,如果有問題,通過ping、tracert、show logging、端口統(tǒng)計(jì)、CPU利用率統(tǒng)計(jì)、鏈路狀態(tài)、路由表狀態(tài)、MPLS標(biāo)簽表狀態(tài)等對(duì)問題進(jìn)行分析,在業(yè)務(wù)忙時(shí),不得擅自重啟或倒換三層核心路由器等設(shè)備。
如果用戶上網(wǎng)或承載業(yè)務(wù)仍然存在故障,可以查看DNS等外界環(huán)境是否正常,承載的業(yè)務(wù)本身是否發(fā)生問題,查看相關(guān)告警,然后做出相應(yīng)的處理。
其它問題,如果現(xiàn)場不能解決,就通報(bào)關(guān)鍵用戶并聯(lián)系廠商解決。
在本文中,筆者就以網(wǎng)絡(luò)不通的故障為例,講解網(wǎng)絡(luò)運(yùn)維的緊急故障處理的比較通用的思路和解決方式。
假設(shè)有一天,接到通知報(bào)告網(wǎng)絡(luò)不通了。給人的第一感覺是某個(gè)服務(wù)出現(xiàn)異常而中斷,比如打不開OA頁面,或者打不開Google頁面。讓我們看看,一個(gè)合格的運(yùn)維人員是如何循遵怎樣的思路來尋找故障的原因并解決的。
確定哪些服務(wù)中斷
首先要做的就是區(qū)分內(nèi)網(wǎng)服務(wù)和外網(wǎng)服務(wù)。
在筆者所在公司中,很多自己開發(fā)的、只限于公司員工使用的服務(wù)都是內(nèi)網(wǎng)服務(wù),比如OA、郵箱、ERP等等。而像QQ、微博那樣的則屬于外網(wǎng)服務(wù)了。
在這樣的環(huán)境下,內(nèi)網(wǎng)服務(wù)的網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)如下所示:
終端→接入交換機(jī)→聯(lián)網(wǎng)路由器→核心路由器→核心交換機(jī)→服務(wù)器
依賴的基礎(chǔ)服務(wù)為:內(nèi)網(wǎng)DNS服務(wù)器。
外網(wǎng)服務(wù)的網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)如下所示:
終端→接入交換機(jī)→核心交換機(jī)→互聯(lián)網(wǎng)接入交換機(jī)→上網(wǎng)行為管理設(shè)備→互聯(lián)網(wǎng)防火墻→外網(wǎng)服務(wù)器
依賴的基礎(chǔ)服務(wù)為:內(nèi)網(wǎng)DNS服務(wù)器,公網(wǎng)DNS服務(wù)器。
如果當(dāng)前訪問的服務(wù)突然中斷,那么首先看看是內(nèi)網(wǎng)的服務(wù)還是外網(wǎng)的服務(wù)。然后再在內(nèi)網(wǎng)和外網(wǎng)分別自選一種服務(wù)嘗試訪問一下。例如ERP突然無法訪問了,那就嘗試訪問一下內(nèi)網(wǎng)的門戶系統(tǒng)和郵件系統(tǒng),以及外網(wǎng)的一個(gè)知名網(wǎng)站。
以下表格(表二)有助于理解故障尋找的過程和思路:
表二
確定其他人的癥狀相同
只是從自己的機(jī)器對(duì)網(wǎng)絡(luò)和服務(wù)做出判斷并不夠客觀,也不夠嚴(yán)謹(jǐn)。前面我們已經(jīng)大致的推測出故障原因,在這一節(jié)我們嘗試對(duì)這個(gè)推測進(jìn)行證明。
要記住這一點(diǎn):可重復(fù)的結(jié)果才是基本可靠的結(jié)果。
為了證實(shí)測試結(jié)果的可重復(fù)性,我們需要從不同的網(wǎng)絡(luò)起點(diǎn)重復(fù)相同的測試步驟。
讓我們以公司的實(shí)際場景來闡述分析故障的思路。目前隨著網(wǎng)絡(luò)技術(shù)的成熟,網(wǎng)絡(luò)架構(gòu)也趨于穩(wěn)定,一般的全省級(jí)的公司網(wǎng)絡(luò)拓?fù)涫疽鈭D如圖三:當(dāng)然,實(shí)際工作中,地市分公司下面,根據(jù)業(yè)務(wù)需要,還會(huì)有縣級(jí)的辦公網(wǎng)絡(luò)、營業(yè)網(wǎng)點(diǎn),實(shí)際廣域網(wǎng)絡(luò)會(huì)達(dá)到三層。
評(píng)論