AWS和Azure頻頻中斷 可靠性讓公有云成為帶刺的玫瑰
為什么說公有云是帶刺的玫瑰呢?我想這應(yīng)該從公有云的價(jià)值和可靠性問題兩方面來說。價(jià)廉,付費(fèi)即用、彈性收縮,不用采購(gòu)設(shè)備,不管運(yùn)維,這就是公有云的價(jià)值,也是公有云發(fā)展的推動(dòng)力;現(xiàn)在很多企業(yè)都把自己的業(yè)務(wù)系統(tǒng)搬到云上,當(dāng)然大部分上云客戶都是選擇核心上私有云,邊沿業(yè)務(wù)上公有云。最近AWS、Azure頻頻事故,可靠性、數(shù)據(jù)控制力和安全一次次給用戶敲響警鐘,下面我們來談?wù)劰性频目煽啃院陀脩魬?yīng)該如何應(yīng)對(duì)。
本文引用地址:http://www.ex-cimer.com/article/201703/345447.htm說起公有云服務(wù)和市場(chǎng),我們不得不提稱霸整個(gè)公有云市場(chǎng)的龍頭老大Amazon,它位于華盛頓州的西雅圖。亞馬遜成立于1995年,其云數(shù)據(jù)中心采用中心和邊緣架構(gòu),28個(gè)中心云數(shù)據(jù)中心,52個(gè)邊緣數(shù)據(jù)中心,目前向全球11個(gè)區(qū)域提供業(yè)務(wù)無差異體驗(yàn)的公有云服務(wù)。
在云計(jì)算和公有云領(lǐng)域,Amazon很多服務(wù)都成了事實(shí)上的標(biāo)準(zhǔn)(主要包括S3和EC2),其云數(shù)據(jù)中心硬件設(shè)施(如數(shù)據(jù)機(jī)房、制冷、供電、存儲(chǔ)、服務(wù)器、網(wǎng)絡(luò)和監(jiān)控等) 規(guī)范也被當(dāng)做教科書被不同云服務(wù)廠商參考,AWS服務(wù)業(yè)務(wù)涵蓋了整個(gè)IaaS、PaaS和SaaS層。
然而,從公有云出現(xiàn)到今天,市場(chǎng)的競(jìng)爭(zhēng)局面雖未曾消減,但在激烈競(jìng)爭(zhēng)和市場(chǎng)的洗禮之下,公有云的市場(chǎng)格局已日趨明顯。引領(lǐng)整個(gè)公有云市場(chǎng)的依次是Amazon的AWS、微軟的Azure、IBM的SoftLayer和Google的Cloud Platform,Oracle Cloud公有云服務(wù)業(yè)緊跟其后;阿里云也成為國(guó)內(nèi)本土云服務(wù)領(lǐng)導(dǎo)者。公有云服務(wù)和技術(shù)發(fā)展和市場(chǎng)份額增加,也使得傳統(tǒng)IT硬件廠商市場(chǎng)空間縮水。但是從目前來看公有云真的可靠嗎,離我們所需的可靠還有多遠(yuǎn)路要走,包括成熟的公有云管理規(guī)范。
其實(shí),公有云一直以來倍受爭(zhēng)議和競(jìng)爭(zhēng)激烈的市場(chǎng),公有云服務(wù)廠商包括IaaS、PaaS和SaaS服務(wù)猶如雨后春筍,在市場(chǎng)格局還沒有定格的情況下,客戶對(duì)服務(wù)的選擇也是一頭霧水。
2013年由于公有云服務(wù)提供商N(yùn)irvanix在競(jìng)爭(zhēng)中失利,強(qiáng)迫近1000家客戶在短時(shí)間取回或遷移原來保存在Nirvanix云中的數(shù)據(jù),Nirvanix突然停業(yè)給客戶業(yè)務(wù)帶來不小動(dòng)蕩和影響。
該說說公有云的可靠性了,我們就那老大Amazon來說,基本每年都有比較的可靠性事故發(fā)生。2017年3月,US-EAST-1地理區(qū)域的S3存儲(chǔ)服務(wù)發(fā)生中斷,依賴S3服務(wù)的Imgur、Medium和Docker Registry Hub,以及Runkeeper、Trello和雅虎網(wǎng)絡(luò)郵箱等紛紛發(fā)生中斷。
2016年3月云服務(wù)巨頭亞馬遜再一次發(fā)生了嚴(yán)重服務(wù)停機(jī)事故,前后維持了20分鐘,將造成巨大經(jīng)濟(jì)損失。在事故發(fā)生時(shí),亞馬遜電子商務(wù)主網(wǎng)站無法訪問,其他的服務(wù)業(yè)受到了波及,其中包括對(duì)外部服務(wù)的亞馬遜云計(jì)算服務(wù),以及面向包郵會(huì)員提供的音樂等數(shù)字內(nèi)容服務(wù)。
2015年7月亞馬遜Web服務(wù)(AWS)出現(xiàn)大規(guī)模宕機(jī)情況,導(dǎo)致Slack、Asana、Netflix、Pinterest等多款A(yù)PP、以及多家使用AWS服務(wù)的網(wǎng)站出現(xiàn)無響應(yīng)的情況。
2012年10月,亞馬遜位于北弗吉尼亞數(shù)據(jù)中心的云計(jì)算平臺(tái)再度宕機(jī),導(dǎo)致多家知名網(wǎng)站長(zhǎng)時(shí)間無法訪問,知名網(wǎng)站和信息服務(wù)商也受到這次宕機(jī)的影響。這是過去一年半中亞馬遜云計(jì)算的第五次宕機(jī)。
微軟云Azure公有云服務(wù)在3月16日也發(fā)生服務(wù)中斷,在全部28個(gè)數(shù)據(jù)中心中有26個(gè)受到影響。所影響區(qū)域的用戶無法創(chuàng)建、更新和刪除數(shù)據(jù)資源。但慶幸的是Azure云服務(wù)已恢復(fù)正常。2012年,Azure云服務(wù)也曾發(fā)生重大故障,當(dāng)時(shí)持續(xù)了半天時(shí)間才恢復(fù)正常服務(wù)。
阿里云也是事故頻頻,2016年7月6號(hào)上午,藍(lán)鯨TMT曝出消息稱阿里云北京機(jī)房?jī)?nèi)網(wǎng)發(fā)生故障,近一個(gè)小時(shí)才恢復(fù)正常,導(dǎo)致大量互聯(lián)網(wǎng)公司業(yè)務(wù)受到影響。阿里云的故障已有多次,2015年9月,阿里云由于客戶正常文件被誤隔離,導(dǎo)致所有基本命令都不能運(yùn)行。2015年6月,阿里云在中國(guó)香港也發(fā)生超過12小時(shí)停止服務(wù)的事件。其實(shí)在此之前,阿里云發(fā)生過多起網(wǎng)絡(luò)故障問題。
種種停機(jī)事和服務(wù)中斷故說明,現(xiàn)階段共有云在可靠性上存在很大問題,當(dāng)然用戶和服務(wù)商不能回避云計(jì)算自身的問題,不能因?yàn)橐淮喂收暇腿P否認(rèn);但也不應(yīng)該過渡追捧云計(jì)算。為了使公有云能更好服務(wù)大眾,共有云服務(wù)商可以考慮從技術(shù)手段做出改進(jìn),用戶也要重新審視什么樣的業(yè)務(wù)才適合共有云。
對(duì)云服務(wù)提供商來說,除了要考慮數(shù)據(jù)備份、容災(zāi),針對(duì)不同業(yè)務(wù)提供不同等級(jí)服務(wù)外,也要考慮重大災(zāi)難或停止服務(wù)時(shí),提供有效的數(shù)據(jù)應(yīng)急手段,確??蛻裟苋』鼗蜻w移重要的數(shù)據(jù)。通過安全技術(shù)保證數(shù)據(jù)被泄漏的風(fēng)險(xiǎn)。通過提供專業(yè)服務(wù)能力,制定數(shù)據(jù)回遷策略和優(yōu)先級(jí)。
此外,還要考慮如何短期內(nèi)給客戶找一個(gè)數(shù)據(jù)新家(新云服務(wù)提供商)來存儲(chǔ)、保護(hù)這些云上數(shù)據(jù);這也就要求云服務(wù)提供商首先是比較開放的,可以實(shí)現(xiàn)跨云數(shù)據(jù)共享和數(shù)據(jù)遷移。
對(duì)企業(yè)和組織客戶來說,在向公有云上部署業(yè)務(wù)、購(gòu)買云服務(wù)時(shí)不能只依賴于一個(gè)服務(wù)商,需要介入多個(gè)云來實(shí)現(xiàn)更好的靈活性;確保數(shù)據(jù)在多個(gè)地區(qū)有多個(gè)副本,在保證數(shù)據(jù)可靠性的同時(shí),享受數(shù)據(jù)本地化訪問的性能優(yōu)勢(shì);建議數(shù)據(jù)通過混合云的方式連接公有云,公有云只作為備份或非關(guān)鍵業(yè)務(wù)。
公有云服務(wù)對(duì)企業(yè)、組織用戶來說確實(shí)是個(gè)好事物,它既能提供廉價(jià)、免運(yùn)維的低成本投入,也能按需投入、按需分配滿足不同業(yè)務(wù)要求。但凡是都有兩面性、公有云也是一把雙刃劍。要更好的使用公有云服務(wù),那對(duì)客戶和云服務(wù)廠商都比要承擔(dān)自己的責(zé)任和義務(wù)。
評(píng)論