Google云服務故障:只因同時做了兩項升級
本月11日13時13分到15時,Google位于美國數(shù)據(jù)中心的App Engine服務出現(xiàn)大面積故障。其中3%的應用出錯概率超過50%,18%的應用訪問出錯概率在10%到50%之間,14%的應用出錯概率在1%到10%之間,有2%的應用出錯率在1%以下但依然高于正常水平。剩余63%的應用訪問正常。
本文引用地址:http://www.ex-cimer.com/article/201608/296024.htm近日Google在其云服務官方日志中公開了故障原因,原來只因為工程師們在例行維護時同時做了兩件事。
出于負載均衡的考慮,Googe的工程師配置了新的數(shù)據(jù)中心,把老數(shù)據(jù)中心一定比例的App遷移到了新的數(shù)據(jù)中心,然后把流量從之前的服務器導向新的數(shù)據(jù)中心。
至此相安無事,但不湊巧的是,數(shù)據(jù)中心的多臺路由器正在軟件升級,需要滾動式重啟,網(wǎng)絡流量處理能力不如平常。
同時,新遷移的許多應用由于啟動緩慢,導致舊服務器大量重復向新服務器發(fā)送啟動應用的請求,進一步加重路由器負載,最終造成偶然丟失外部用戶的訪問。
對此意外,Google方面表示將會加大對硬件的投入,修正導入流量的方式,并修改針對新服務器的重試請求。
評論