SDH傳輸故障處理分析
傳輸故障定位的基本原則
眾所周知,傳輸故障定位一般應(yīng)遵循“先搶通后修復(fù)、先外部后傳輸、先單站后單板、先線路后支路、先高級后低級”的原則。
1.先搶通后修復(fù)
在出現(xiàn)故障時,系統(tǒng)維護者要首先搶通業(yè)務(wù)然后進行故障修復(fù)。如果存在影響業(yè)務(wù)情況下的傳輸網(wǎng)絡(luò)告警故障,如在2Mbit/s業(yè)務(wù)通道出現(xiàn) LOS(信號丟失)告警,因外線原因?qū)е碌氖諢o光告警,單元盤故障產(chǎn)生的UnitFailure(單元失效)告警等情況下產(chǎn)生的故障,必須首先搶通業(yè)務(wù)。
不過要想先搶通業(yè)務(wù)需要一個先決條件,那就是網(wǎng)絡(luò)中有與故障通道相同起始點的可用通道資源或與故障板件相同的可用備板。
2.先外部后傳輸
在處理故障時應(yīng)先排除外部的可能因素,如斷纖、終端設(shè)備故障、電源或機房環(huán)境配套故障等,而后進行傳輸系統(tǒng)原因查找。當(dāng)可能存在外界因素影響而產(chǎn)生傳輸網(wǎng)絡(luò)告警故障時,如設(shè)備溫度告警、光路告警、網(wǎng)元失效告警,也需照此原則處理。
3.先單站后單板
指在查找傳輸設(shè)備故障原因時,需要先定位到站點再定位到板件。
一般設(shè)備故障時,不會只是一個站點出現(xiàn)告警,而是在很多站點同時上報告警。這時就需要通過分析和判斷縮小范圍,快速、準(zhǔn)確地定位是哪個單站的問題,而后盡可能準(zhǔn)確地將故障定位到單站后再具體定位到單板。如處理光路誤碼、光功率異常等告警處理時,需要結(jié)合業(yè)務(wù)信號流,對告警與性能事件一起進行分析??刹捎铆h(huán)回法、替代法、數(shù)據(jù)分析法、儀表測試法來判斷告警及故障產(chǎn)生的原因,將其定位到單板。
4.先線路后支路
在處理故障時,如果支路出現(xiàn)了大量AIS告警,這時需要先排除線路板故障再查看支路板故障。
由于傳輸系統(tǒng)線路板的故障常常會引起支路板的異常告警,在處理告警時,應(yīng)按“先線路后支路”的順序,排除網(wǎng)管告警;如支路出現(xiàn)大量AIS則首先查看線路板是否出現(xiàn)LOS告警或其他異常告警,再查看支路板告警。
5.先高級后低級
在進行告警分析時,先分析高級別告警再分析低級別告警。
特別是當(dāng)高、低級別告警同時存在時,應(yīng)首先分析級別高的告警,如緊急告警、主要告警,然后再分析低級別的告警,如次要告警、一般告警。處理告警時,系統(tǒng)維護者先處理影響業(yè)務(wù)的告警。如果這些告警是由更高一級的告警引起的,則先處理更高一級的告警,如AIS、LOP等。如果是由LOS引發(fā)的,要先處理LOS告警。
傳輸故障形成原因
導(dǎo)致傳輸故障的原因很多,按照故障的來源,大體上可分為工程施工缺陷、日常維護操作不當(dāng)、設(shè)備對接失敗、設(shè)備外部原因及設(shè)備本身原因等。
1.工程施工不規(guī)范、質(zhì)量差
此類故障有的在施工期間就能暴露出來,有的可能在設(shè)備運行一段時間或某些外因作用下,才暴露出來,從而為設(shè)備的穩(wěn)定運行埋下隱患。為了杜絕此類故障,施工人員需要嚴(yán)格按工程規(guī)范施工安裝,認(rèn)真細(xì)致地按規(guī)范要求進行單點和全網(wǎng)的調(diào)試和測試。
2.日常維護操作不當(dāng)
維護人員由于對系統(tǒng)了解不夠深入細(xì)致,對具體設(shè)備的細(xì)節(jié)、性能特點和注意事項以及新老設(shè)備和新舊版本的特點和差別不清楚,就貿(mào)然開通而容易導(dǎo)致故障。此類故障最容易在升級擴容、新老設(shè)備及版本混用、使用新版的備板和使用未經(jīng)系統(tǒng)聯(lián)調(diào)的板件的情況下出現(xiàn)。
3.設(shè)備對接失敗
由于傳送業(yè)務(wù)的多樣性和業(yè)務(wù)對傳輸通道性能需求的復(fù)雜性,傳輸設(shè)備的對接十分復(fù)雜,這時容易出現(xiàn)系列問題,比如線纜連接錯誤,設(shè)備接地不符合要求,傳輸、交換網(wǎng)絡(luò)之間時鐘同步異常,SDH幀結(jié)構(gòu)中開銷字節(jié)的定義差別等,都會導(dǎo)致故障的產(chǎn)生。
4.設(shè)備外部原因
設(shè)備外部故障也將導(dǎo)致傳輸故障。導(dǎo)致傳輸故障的外部原因很多,包括:一、電源系統(tǒng)及配套故障。如交流停電、直流掉電、熔斷器故障、供電電壓過低、接地不良、環(huán)境劣化等;二、光纖光纜故障。如光纜線路中斷,光纜線路衰耗過大、尾纖斷,尾纖彎曲半徑過小,法蘭盤接頭有灰塵及尾纖頭臟等;三、電纜故障。如2Mbit/s電纜中斷,2Mbit/s接口輸入輸出端口脫落、松動而造成的接觸不良等;四、交換機故障。
5.設(shè)備本身原因
這指的是設(shè)備本身損壞或板件配合存在著問題。常見的現(xiàn)象有:一、單盤故障。如線路板、2Mbit/s板、時鐘板、交叉板、主控板等器件損壞;二、網(wǎng)管系統(tǒng)故障。包括網(wǎng)管與設(shè)備之間的網(wǎng)線故障或系統(tǒng)異常而造成的ECC通道中斷、死機等情況。
需要提醒的是,設(shè)備在運行較長時間后,板件會自然老化,這種由于設(shè)備老化而產(chǎn)生的故障也屬于此類。設(shè)備老化故障有一個共同特點:設(shè)備已使用較長時間,故障之前設(shè) 備基本正常,故障只是在個別點、個別板件出現(xiàn),或在一些外因作用下出現(xiàn)。
故障處理思路
在遇到故障時,系統(tǒng)維護者應(yīng)該不慌不亂,仔細(xì)查看故障現(xiàn)象并分析可能原因,從而做到有的放矢,迅速處理。故障處理一般應(yīng)遵循“先看,再問,然后思考,最后動手”的思路。
系統(tǒng)維護者到達(dá)現(xiàn)場后首先查看故障的現(xiàn)象,包括故障出現(xiàn)的位置,有哪些告警,故障的嚴(yán)重程度,造成的危害等,這樣才能夠明白故障的本質(zhì)。
查看完現(xiàn)象后,系統(tǒng)維護者應(yīng)詢問各階段現(xiàn)場人員,該現(xiàn)象是由何種原因造成,比如是否有人修改了數(shù)據(jù),刪除了文件,更換了電路板;是否遭遇停電或雷擊,是否存在操作不當(dāng)現(xiàn)象。
根據(jù)以上結(jié)果,系統(tǒng)維護者再結(jié)合自己的知識思考、分析,判斷何種原因可能引起該種故障等,做出較為正確的判斷。最后根據(jù)故障定位原則找出故障點,通過修改數(shù)據(jù)、更換單板等方法排除故障。
常見傳輸故障處理方法
常見的傳輸故障處理方法包括觀察分析法、環(huán)回測試法、插拔法、替換法、配置數(shù)據(jù)分析法、更改配置法、儀表測試法和經(jīng)驗處理法。
1.觀察分析法
系統(tǒng)故障時一般會伴有相應(yīng)的告警信息。通過觀察告警燈運行情況,可以及時發(fā)現(xiàn)故障。故障發(fā)生時,網(wǎng)管上也會記錄非常豐富的告警事件和性能數(shù)據(jù)信息,通過分析這些信息,并結(jié)合SDH幀結(jié)構(gòu)中的開銷字節(jié)和SDH告警原理機制,初步判斷故障類型和故障點的位置。
2.環(huán)回測試法
有時觀察分析法不能解決問題,如組網(wǎng)、業(yè)務(wù)以及故障信息相當(dāng)復(fù)雜的情況和無明顯告警和性能信息上報的特殊故障情況。系統(tǒng)維護者可以利用網(wǎng)管提供的維護功能進行測試,判斷故障點和類型。最常見的方法是環(huán)回。
環(huán)回是定位故障點最有效和常用的方法,它不需要對告警和性能做太深入的分析,缺點是會影響業(yè)務(wù),一般在業(yè)務(wù)量小的時候使用。
3.插拔法
當(dāng)發(fā)現(xiàn)某種電路板有故障時,系統(tǒng)維護者可以通過插拔一下電路板和外部接口插頭的方法,排除因接觸不良或處理機異常產(chǎn)生的故障。在插拔時,系統(tǒng)維護者要注意遵循單板插拔的操作規(guī)范,以免導(dǎo)致其它問題甚至損壞板件。
4.替換法
當(dāng)用插拔法不能解決問題時,可以考慮替換法。替換法就是使用一個正常的備件去替換一個被懷疑工作不正常的元件,從而實現(xiàn)故障的定位和排除。
替換法適用于排除傳輸外部設(shè)備的問題,如光纖、中繼電纜、交換機、供電設(shè)備等?;蚬收隙ㄎ坏絾握竞螅糜谂懦龁握緝?nèi)單板的問題。如某站光板有告警,我們懷疑收發(fā)光纖接反,則可將收、發(fā)兩根光纖互換。若互換后,光板告警消失,就說明確實光纖接反。
替換法的優(yōu)點在于方法簡單,對維護人員要求不高,比較實用,但對備件有要求。另外替換插拔電路板時,需要按照操作規(guī)范執(zhí)行。
5.配置數(shù)據(jù)分析法
配置數(shù)據(jù)分析法是指通過開銷字節(jié)配置及狀態(tài)分析、更改交叉連接等手段對告警進行輔助判斷和處理的故障排除方法。
配置數(shù)據(jù)分析法的優(yōu)點是不影響業(yè)務(wù),不需要儀表,能夠正確識別硬件連接錯位,處理效率高。但是故障定位的時間相對較長,且對維護人員的要求非常高。一般只有對設(shè)備非常熟悉且經(jīng)驗非常豐富的維護人員才能使用。在使用該方法時,應(yīng)盡量選擇J0/J1/V3等不影響業(yè)務(wù)的蹤跡字節(jié)和其他狀態(tài)字節(jié)。
6.更改配置法
更改配置法是對時隙、板位、單板參數(shù)重新進行配置。故適用于故障定位到單個站點后,排除由于配置錯誤而導(dǎo)致的故障。
當(dāng)通過更改時隙配置不能將故障確切地定位到是哪塊單板的問題時,需進一步通過替換法進行故障定位。因此該方法適用于沒有備板的情況下,初步定位故障類型,并使用其他業(yè)務(wù)通道或板位暫時恢復(fù)業(yè)務(wù)。
該方法操作起來比較復(fù)雜,對維護人員的水平要求較高。因此,除非在沒有備板的情況下用于臨時恢復(fù)業(yè)務(wù),或用于定位指針調(diào)整問題,一般情況不推薦使用。
7.儀表測試法
儀表測試法一般用于排除傳輸設(shè)備外部問題以及與其它設(shè)備的對接問題。傳輸設(shè)備常用測試儀表包括2Mbit/s誤碼測試儀、SDH測試儀、光譜分析儀等。
通過儀表測試法分析定位故障比較準(zhǔn)確。缺點是對儀表有需求,同時對維護人員的要求也較高。
8.經(jīng)驗處理法
在一些特殊的情況下,如由于瞬間供電異常,低壓或外部強烈的電磁干擾,致使傳輸設(shè)備某些單板進入異常工作狀態(tài)。此時的故障現(xiàn)象,如業(yè)務(wù)中斷、 ECC通信中斷等,可能伴隨相應(yīng)的告警,也可能沒有任何告警,檢查各單板的配置數(shù)據(jù)可能也是完全正常的。經(jīng)驗證明,在這種情況下,系統(tǒng)維護者通過復(fù)位單板,網(wǎng)元掉電重啟,重新下發(fā)配置或?qū)I(yè)務(wù)倒換到備用通道等手段,可有效地及時排除故障、恢復(fù)業(yè)務(wù)。
建議系統(tǒng)維護者盡量少使用該方法來處理,因為該方法不利于故障原因的徹底查清。遇到這種情況,除非情況緊急,一般還是應(yīng)盡量使用前面介紹的幾種方法,或通過正確渠道請求技術(shù)支援,盡可能地將故 障定位出來,以消除設(shè)備內(nèi)外的隱患。
典型案例分析
為了更深入地理解傳輸故障的處理思路和方法,現(xiàn)對幾個典型的案例進行分析。
1.傳輸2Mbit/s線故障引起業(yè)務(wù)中斷
故障現(xiàn)象:某網(wǎng)元2Mbit/s業(yè)務(wù)中斷,傳輸設(shè)備為華為155/622H,傳輸設(shè)備上有T-LOS告警。
故障分析:由于傳輸設(shè)備上有T-LOS告警,系統(tǒng)維護者可以肯定傳輸設(shè)備光路沒有任何問題。因為在傳輸設(shè)備到網(wǎng)元的2Mbit/s電路上有故障,所以問題可能出在傳輸設(shè)備電接口板SP1D或是2Mbit/s線故障。
故障定位和解決步驟:到站先用環(huán)回的方式判斷故障點,在DDF架上做遠(yuǎn)端環(huán)回時,傳輸設(shè)備仍有T-LOS告警,做近端環(huán)回時通路正常,說明是 DDF架到SP1D板的2Mbit/s線有問題,且是SP1D板到DDF架上的發(fā)支路故障,與開始的分析吻合。由于SP1D板到DDF架上的2Mbit /s線是成品線,無法修復(fù),只有將SP1D板上未用的2Mbit/s成品線與故障線成功對換后,告警消除,放通2Mbit/s,業(yè)務(wù)才恢復(fù)正常。為保證以后業(yè)務(wù)的正常開通,系統(tǒng)維護者最后將壞的那根2Mbit/s成品線換下,以保證所有2Mbit/s線是正常的。
結(jié)論:此故障是一個典型的2Mbit/s線故障引起業(yè)務(wù)中斷案例,在這個案例中,我們根據(jù)故障現(xiàn)象,預(yù)先分析出故障屬于2Mbit/s電路故障,并由最常規(guī)的環(huán)回方式來判斷故障點,找到故障點后迅速地恢復(fù)業(yè)務(wù)。
2.電壓異常導(dǎo)致業(yè)務(wù)中斷
故障現(xiàn)象:某局傳輸組網(wǎng)為4個OptiX2500設(shè)備組成雙向復(fù)用段保護環(huán),1號網(wǎng)元為業(yè)務(wù)中心點,接有網(wǎng)管計算機。某日,該局3號網(wǎng)元業(yè)務(wù)中斷,從網(wǎng)管無法登錄該網(wǎng)元,且2、4號網(wǎng)元對應(yīng)3號網(wǎng)元光板報“R-LOS”告警。
故障分析及排除:從故障現(xiàn)象分析,應(yīng)該是3號網(wǎng)元掉電;當(dāng)系統(tǒng)維護者趕到3號網(wǎng)元,發(fā)現(xiàn)3號網(wǎng)元機架告警燈及單板指示燈全滅。測量-48V與BGND接線柱之間的電壓為0V;測量電源設(shè)備輸出電壓,為-53.7V,但電源設(shè)備有輸出電壓不正常告警。
此時系統(tǒng)維護者懷疑傳輸設(shè)備內(nèi)部短路。關(guān)閉3號網(wǎng)元機柜子架電源開關(guān),重新測量-48V與BGND接線柱之間的電壓,為-20.39V,可能是機柜電源盒局部短路將電位拉低。
關(guān)閉電源設(shè)備給傳輸設(shè)備供電的一路電源(拔下電源保險),斷開傳輸設(shè)備電源輸入電纜,在子架電源開關(guān)關(guān)閉的情況下測量-48V與BGND之間的電阻,為幾千歐姆,正常。
系統(tǒng)維護者懷疑電源電纜壓降過大,測量-48V、BGND電纜的電阻,均為零點幾歐姆,正常。進一步測量拔下的電源保險,發(fā)現(xiàn)其電阻已達(dá)到十千歐級,故障原因就出在電源保險上。
換上正常的保險,重新給3號網(wǎng)元加電,一切正常。
結(jié)論:電源保險損壞,但并未開路,由于其電阻值變得很大,因此雖然輸出電壓正常,但實際并無帶負(fù)載的能力。因此,在遇到傳輸設(shè)備輸出電壓不正常的時候,系統(tǒng)維護者除了考慮傳輸設(shè)備的故障因素,還要同時對電源設(shè)備進行檢查。
3.線路人為盜割中斷引起業(yè)務(wù)中斷
故障現(xiàn)象:某傳輸網(wǎng)XXX01網(wǎng)元~XXX網(wǎng)元,兩傳輸網(wǎng)元互報R-LOS告警,在該環(huán)上部分網(wǎng)元上報PS告警,所有網(wǎng)元均能登錄,該環(huán)上及環(huán)到鏈間的業(yè)務(wù)均得到保護,無業(yè)務(wù)中斷。告警信息有R-LOS、PS、部分備用通道TU-AIS。
原因分析:由于無業(yè)務(wù)中斷,表明環(huán)倒換正常,且兩網(wǎng)元互保R-LOS告警且均能登錄,初步斷定為該中繼段的光纜斷或設(shè)備尾纖故障。
該環(huán)為PP環(huán),其保護屬性為支路板倒換,當(dāng)主用通道發(fā)生故障時,支路板會倒換到另一個方向進行選收業(yè)務(wù),同時上報PS告警和備用通道TU-AIS告警,屬正常告警。
處理過程:檢查設(shè)備尾纖、連接件、光板等,一切正常,斷定為光纜故障。經(jīng)OTDR測試,發(fā)現(xiàn)XXX01網(wǎng)元出局1.2km處光纜斷,巡線至XXX01網(wǎng)元出局1.2km處,發(fā)現(xiàn)該處被人為盜割。修復(fù)光纜,故障解決。
結(jié)束語
在SDH傳輸網(wǎng)絡(luò)的日常維護過程中,我們經(jīng)常會遇到各種故障現(xiàn)象并伴隨著不同的告警指示,有時甚至出現(xiàn)一樣的告警指示,貌似同一故障,卻由不同的原因?qū)е?。只有透過故障的表象找到其本質(zhì),才能實現(xiàn)故障的準(zhǔn)確定位并迅速排除。這就需要我們了解故障定位的基本原則,明確故障處理的思路,掌握常見的故障處理方法,從而從容應(yīng)對各種異常現(xiàn)象,提高日常維護的效果。
光譜分析儀相關(guān)文章:光譜分析儀原理
評論