故障域隔離(FDI)方法有效避免網(wǎng)絡(luò)事故的“互相推諉”
當(dāng)網(wǎng)絡(luò)問(wèn)題并不復(fù)雜,并且當(dāng)大家都來(lái)自同一個(gè)組織的時(shí)候,專家團(tuán)隊(duì)方法能夠有效地對(duì)事故作出響應(yīng)。但近年來(lái),隨著基礎(chǔ)架構(gòu)云端化,相關(guān)利益主體分布在不同的部門(mén)、公司和地理區(qū)域,針對(duì)網(wǎng)絡(luò)事故和業(yè)務(wù)應(yīng)用性能問(wèn)題的根本原因分析(RCA)變得越發(fā)困難。
本文引用地址:http://www.ex-cimer.com/article/201808/387898.htm為滿足服務(wù)水平協(xié)議(SLA)要求并防止客戶流失,快速查明根本原因已成為許多企業(yè)的首要任務(wù)。但是,據(jù)《Emulex可視性調(diào)查》表明,79%的企業(yè)曾經(jīng)將事故發(fā)生的原因錯(cuò)誤地歸咎于某個(gè)IT部門(mén),這不僅增添了混亂程度,還推遲了解決問(wèn)題的時(shí)間。
針對(duì)以上問(wèn)題,本文將介紹一個(gè)由數(shù)據(jù)包分析驅(qū)動(dòng)的故障域隔離(FDI)方法,幫助企業(yè)進(jìn)行故障檢修并解決網(wǎng)絡(luò)和應(yīng)用性能問(wèn)題。
外包成為主流
即使整個(gè)基礎(chǔ)架構(gòu)由一家企業(yè)所有,要充分了解整個(gè)基礎(chǔ)架構(gòu)的實(shí)際狀態(tài)也會(huì)非常困難。更何況,當(dāng)外包業(yè)務(wù)迅速擴(kuò)張時(shí),端到端業(yè)務(wù)應(yīng)用就會(huì)逐漸出現(xiàn)許多盲點(diǎn)。如果整個(gè)技術(shù)層都被外包出去,就會(huì)出現(xiàn)一個(gè)巨大的盲點(diǎn),導(dǎo)致您無(wú)法在該技術(shù)域內(nèi)進(jìn)行RCA。為了順應(yīng)技術(shù)外包的趨勢(shì),企業(yè)必須清楚地區(qū)別事故響應(yīng)工作流程中FDI階段與RCA階段的目的和要求。
什么是FDI?
FDI的理念很簡(jiǎn)單,任何看過(guò)病的人都不難理解,它跟醫(yī)療保健領(lǐng)域的“事故調(diào)查”流程在本質(zhì)上相似。首先,一名全科醫(yī)生會(huì)進(jìn)行初步評(píng)估、安排診斷測(cè)試并評(píng)估結(jié)果。然后,患者將接受??漆t(yī)生的檢查,而且只有在證據(jù)充分、可以確定病情時(shí)才會(huì)進(jìn)行其他診斷和治療。診斷過(guò)程以事實(shí)而不是以猜測(cè)作為依據(jù)。
部署FDI的企業(yè)希望最大限度地減少參與每次事故調(diào)查的技術(shù)專家的人數(shù)和類型,這就是FDI需要在RCA之前進(jìn)行的原因。這樣做的目的是為了在開(kāi)始深入分析根本原因之前找到一個(gè)可疑的技術(shù)層。為什么要按技術(shù)進(jìn)行隔離呢?一是因?yàn)镮T部門(mén)和外包業(yè)務(wù)通常是按技術(shù)劃分的,二是因?yàn)檫@樣有助于快速減少參與人員的數(shù)量。由于只會(huì)牽涉到一個(gè)故障域,技術(shù)隔離可以避免整個(gè)部門(mén)及外部企業(yè)由于接受調(diào)查而導(dǎo)致業(yè)務(wù)停頓。這就好比您不會(huì)讓一名神經(jīng)外科醫(yī)生來(lái)檢查腳趾骨折一樣。
FDI的一個(gè)主要目的是防止調(diào)查過(guò)程中“相互推諉”的現(xiàn)象。要使FDI更為有效,必須提供確鑿的證據(jù),證實(shí)某個(gè)“可疑”子系統(tǒng)或技術(shù)層是導(dǎo)致問(wèn)題的根本原因。同時(shí),還需要確認(rèn)任何其他子系統(tǒng)或技術(shù)層不可能是問(wèn)題的根源所在。當(dāng)故障域位于外包技術(shù)中時(shí),這一點(diǎn)尤為重要。
在將問(wèn)題移交給負(fù)責(zé)的團(tuán)隊(duì)或服務(wù)提供商處理的時(shí)候,有效的FDI還有助于提供與特定技術(shù)相關(guān)、可付諸行動(dòng)的數(shù)據(jù),這將為技術(shù)團(tuán)隊(duì)提供相關(guān)情景、癥狀和信息,以便他們立即針對(duì)其所負(fù)責(zé)的系統(tǒng)進(jìn)行深入的根本原因分析。
圖1: 事故響應(yīng)流程
只需要一組事實(shí)
為保證其效率及有效性,F(xiàn)DI需要根據(jù)在技術(shù)層之間交換的實(shí)際數(shù)據(jù)包進(jìn)行分析。數(shù)據(jù)包不會(huì)“撒謊”,它們也不會(huì)掩蓋平均值或統(tǒng)計(jì)數(shù)據(jù)中的關(guān)鍵細(xì)節(jié)。以基本數(shù)據(jù)包作為證據(jù)可以確保FDI流程找到對(duì)于事故具有不可推卸責(zé)任的故障技術(shù)層。
“首要FDI”指的是將事故交予特定技術(shù)團(tuán)隊(duì)或外包服務(wù)提供商。它的目標(biāo)相對(duì)簡(jiǎn)單,即在少數(shù)部門(mén)、團(tuán)隊(duì)以及外包服務(wù)商中分配事故,因而是一種極為經(jīng)濟(jì)的實(shí)施方法。在實(shí)際操作中,它涉及的技術(shù)層、網(wǎng)絡(luò)中的分路點(diǎn)以及在每個(gè)技術(shù)層之間進(jìn)行監(jiān)控的網(wǎng)絡(luò)記錄器均相對(duì)較少。
什么原因?qū)е铝搜舆t?
當(dāng)人們認(rèn)真地進(jìn)行RCA并且有自信確定問(wèn)題所在的時(shí)候,人們就可以降低成本并縮短解決問(wèn)題的時(shí)間。當(dāng)負(fù)責(zé)處理問(wèn)題的人員擁有正確評(píng)估原因及解決問(wèn)題的專業(yè)技能時(shí),RCA就能達(dá)到最佳效果。
在前文,我們提到以數(shù)據(jù)包為導(dǎo)向的FDI流程能夠有效加快事故調(diào)查并減少參與人員數(shù)量。此外,F(xiàn)DI不需要很多分路器和設(shè)備即可對(duì)主要技術(shù)層進(jìn)行隔離,從而實(shí)現(xiàn)其首要目標(biāo)——僅指派相關(guān)的人員參與事故調(diào)查。那么,為什么很多重大事故調(diào)查仍然需要召開(kāi)專家小組會(huì)議呢?
問(wèn)題在于,有的人認(rèn)為,僅僅依靠若干分路器和網(wǎng)絡(luò)記錄器不足以完全解決復(fù)雜的事故。您知道嗎?他們的看法是正確的。但是,這并不是事故調(diào)查流程FDI階段的目標(biāo),該階段的目標(biāo)是隔離故障。通過(guò)基本數(shù)據(jù)包以及數(shù)據(jù)包分析的流程,您可以簡(jiǎn)單有效地實(shí)現(xiàn)這一目標(biāo)。
分而治之
首要/一級(jí)FDI流程會(huì)將事故隔離到由企業(yè)內(nèi)部結(jié)構(gòu)和外包安排所定義的單一技術(shù)層。要達(dá)到首要FDI的最佳效果,我們需要:1) 使用網(wǎng)絡(luò)記錄工具監(jiān)控和儲(chǔ)存技術(shù)層之間產(chǎn)生的網(wǎng)絡(luò)流量;2) 通過(guò)應(yīng)用事務(wù)分析(Application Transaction Analysis)來(lái)進(jìn)行故障隔離。數(shù)據(jù)包存儲(chǔ)對(duì)于高效的FDI所依賴的回顧性分析(Back-in-time Analysis)至關(guān)重要。
您可能已經(jīng)猜到,F(xiàn)DI是一個(gè)可以分層部署的“分治”流程。您還可以在每個(gè)技術(shù)層次中進(jìn)行FDI,從而進(jìn)一步隔離問(wèn)題,直到高效完成RCA。這個(gè)過(guò)程可以稱為“層內(nèi)FDI”或“輔助FDI”。
輔助FDI工作流程尤其適用于網(wǎng)絡(luò)事故調(diào)查。同理,為達(dá)到FDI的最佳效果,我們需要監(jiān)控并儲(chǔ)存關(guān)鍵網(wǎng)絡(luò)組件之間的實(shí)際數(shù)據(jù)包流,從而進(jìn)行有效的回顧性分析。
如果以網(wǎng)絡(luò)內(nèi)FDI作為目標(biāo),則需要了解應(yīng)在哪些位置部署網(wǎng)絡(luò)分路器和網(wǎng)絡(luò)記錄工具。首要FDI與網(wǎng)絡(luò)內(nèi)FDI之間的主要區(qū)別在于觀察點(diǎn)的位置更多與物理位置、技術(shù)、員工專業(yè)技能以及外包程度和外部提供商有關(guān),與組織問(wèn)題關(guān)系不大。但是,F(xiàn)DI流程較為類似:執(zhí)行基于數(shù)據(jù)包的分析以提供確鑿證據(jù),從而確定哪些技術(shù)或服務(wù)提供商存在問(wèn)題、哪些不存在問(wèn)題。
始終運(yùn)行還是始終可用?
我們不希望等到發(fā)生重大事故時(shí)才開(kāi)始部署執(zhí)行FDI所需的分路器和監(jiān)控工具,這將與FDI的初衷背道而馳。因此,我們應(yīng)部署并始終運(yùn)行執(zhí)行主要/一級(jí)FDI所需的分路器和網(wǎng)絡(luò)記錄工具。
但是,如何執(zhí)行輔助/技術(shù)內(nèi)FDI呢?如何處理遠(yuǎn)程站點(diǎn)、地區(qū)性數(shù)據(jù)中心和非關(guān)鍵性應(yīng)用呢?您不可能四處進(jìn)行分路,也無(wú)法儲(chǔ)存一切內(nèi)容。
幸運(yùn)的是,人們開(kāi)發(fā)了許多網(wǎng)絡(luò)記錄工具,以滿足主要技術(shù)層之間的“始終運(yùn)行”記錄需求,以及通過(guò)網(wǎng)絡(luò)數(shù)據(jù)包代理連接到眾多二級(jí)分路點(diǎn)的“始終可用”記錄需求。始終可用的設(shè)備不一定能夠保證長(zhǎng)期的回顧可視性,但您可以在需要時(shí)快速配置這些設(shè)備,根據(jù)當(dāng)前事故調(diào)查的特定可視性需求進(jìn)行監(jiān)控。
如此簡(jiǎn)單?
那么,F(xiàn)DI真的像我們所說(shuō)的那么簡(jiǎn)單嗎?我們需要辯證地回答這個(gè)問(wèn)題。很顯然,在現(xiàn)代企業(yè)聯(lián)網(wǎng)業(yè)務(wù)應(yīng)用基礎(chǔ)架構(gòu)這樣復(fù)雜的動(dòng)態(tài)系統(tǒng)中,可能會(huì)出現(xiàn)各種反常、復(fù)雜甚至是匪夷所思的問(wèn)題。您始終需要對(duì)這些類型的問(wèn)題進(jìn)行深入調(diào)查,并利用專家的技能和知識(shí)來(lái)加以解決。但這并不能說(shuō)明FDI與有效解決這些負(fù)載問(wèn)題無(wú)關(guān)。事實(shí)上,這些問(wèn)題使一個(gè)嚴(yán)格、可重復(fù)、由數(shù)據(jù)驅(qū)動(dòng)的FDI流程更為重要了。要解決復(fù)雜問(wèn)題,為什么不采用FDI這種久經(jīng)考驗(yàn)的“分治”方法呢?
評(píng)論