<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 阿里云發(fā)布香港可用區(qū)C服務中斷事件說明，稱將盡快處理賠償事宜

阿里云發(fā)布香港可用區(qū)C服務中斷事件說明，稱將盡快處理賠償事宜

作者：時間：2022-12-26 來源：界面新聞

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

12月25日，阿里云發(fā)布香港Region可用區(qū)C服務中斷事件說明，并向所有受到故障影響的客戶公開致歉，稱將盡快處理賠償事宜。阿里云表示，將盡一切努力從此次事件中吸取經(jīng)驗教訓，持續(xù)提升云服務的穩(wěn)定性。在說明中，阿里云公布了本次事件的故障情況、問題分析和改進措施，具體如下：

本文引用地址：http://www.ex-cimer.com/article/202212/442070.htm

處理過程

12月18日08:56，阿里云監(jiān)控到香港Region可用區(qū)C機房包間通道溫控告警，阿里云工程師介入應急處理，通知機房服務商進行現(xiàn)場排查。09:01，阿里云監(jiān)控到該機房多個包間溫升告警，此時工程師排查到冷機異常。09:09，機房服務商按應急預案對異常冷機進行4+4主備切換以及重啟，但操作失敗，冷水機組無法恢復正常。09:17，依照故障處理流程，啟動制冷異常應急預案，進行輔助散熱和應急通風。嘗試對冷機控制系統(tǒng)逐個進行隔離和手工恢復操作，但發(fā)現(xiàn)無法穩(wěn)定運行，聯(lián)系冷機設備供應商到現(xiàn)場排查。此時，由于高溫原因，部分服務器開始受到影響。

自10:30開始，為避免可能出現(xiàn)的高溫消防問題，阿里云工程師陸續(xù)對整個機房計算、存儲、網(wǎng)絡、數(shù)據(jù)庫、大數(shù)據(jù)集群進行降載處理。期間，繼續(xù)多次對冷機設備進行操作，但均不能保持穩(wěn)定運行。

12:30，冷機設備供應商到場，在多方工程師診斷下，對冷塔、冷卻水管路及冷機冷凝器進行手工補水排氣操作，但系統(tǒng)仍然無法保持穩(wěn)定運行。阿里云工程師對部分高溫包間啟動服務器關機操作。14:47，冷機設備供應商對設備問題排查遇到困難，其中一個包間因高溫觸發(fā)了強制消防噴淋。15:20，經(jīng)冷機設備商工程師現(xiàn)場手工調(diào)整配置，冷機群控解鎖完成并獨立運行，第1臺冷機恢復正常，溫度開始下降。工程師隨后繼續(xù)通過相同方法對其他冷機進行操作。18:55，4臺冷機恢復到正常制冷量。19:02，分批啟動服務器，并持續(xù)觀察溫升情況。19:47，機房溫度趨于穩(wěn)定。同時，阿里云工程師開始進行服務啟動恢復，并進行必要的數(shù)據(jù)完整性檢查。

21:36，大部分機房包間服務器陸續(xù)啟動并完成檢查，機房溫度穩(wěn)定。其中一個包間因消防噴淋啟動，未進行服務器上電。因為保持數(shù)據(jù)的完整性至關重要，工程師對這個包間的服務器進行了仔細的數(shù)據(jù)安全檢查，這里花費了一些必要的時間。22:50，數(shù)據(jù)檢查以及風險評估完成，最后一個包間依據(jù)安全性逐步進行供電恢復和服務器啟動。

服務影響

12月18日09:23，香港Region可用區(qū)C部分ECS服務器開始出現(xiàn)停機，觸發(fā)同可用區(qū)內(nèi)宕機遷移。隨著溫度繼續(xù)升高，受影響的服務器停機數(shù)量持續(xù)增加，客戶業(yè)務開始受到影響，影響面擴大到香港可用區(qū)C的EBS、OSS、RDS等更多云服務。

阿里云香港可用區(qū)C的故障，沒有直接影響客戶在香港其他可用區(qū)運行的業(yè)務，但影響了香港Region ECS管控服務（Control Plane）的正常使用。因大量可用區(qū)C的客戶在香港其他可用區(qū)新購ECS實例，從12月18日14:49開始，ECS管控服務觸發(fā)限流，可用性最低跌至20%?？蛻粼谑褂肦unInstances/CreateInstance API購買新ECS實例時，如果指定了自定義鏡像，部分實例在購買成功之后會出現(xiàn)啟動失敗的現(xiàn)象，由于自定義鏡像數(shù)據(jù)服務依賴可用區(qū)C的單AZ冗余版本的OSS服務，無法通過重試解決。此時，部分Dataworks、k8s用戶控制臺操作也受到了故障影響。API完全恢復可用為當日23:11。

12月18日10:37，阿里云香港可用區(qū)C的部分存儲服務OSS開始受到停機影響，此時客戶暫不會感知，但持續(xù)高溫會導致磁盤壞道，影響數(shù)據(jù)安全，工程師對服務器進行停機操作，從11:07至18:26中斷了服務。阿里云在香港Region可用區(qū)C提供了2種類型的OSS服務，一種是OSS本地冗余LRS服務（通常叫單AZ冗余服務），僅部署在可用區(qū)C；另一種是OSS同城冗余ZRS服務（通常叫3AZ冗余服務），部署在可用區(qū)B、C和D。在此次故障中，OSS同城冗余ZRS服務基本沒有受到影響。可用區(qū)C的OSS本地冗余服務中斷時間較長，因不支持跨可用區(qū)切換，需要依賴故障機房的恢復。從18:26開始，存儲服務器重新分批啟動。其中，單AZ本地冗余LRS服務有部分服務器因消防問題需要做隔離處理?；謴头涨?，我們必須要確保數(shù)據(jù)可靠性，花費了較多的時間進行完整性檢驗工作。直至12月19日00:30，這部分OSS服務（單AZ冗余服務）才恢復了對外服務能力。

阿里云網(wǎng)絡少量單可用區(qū)產(chǎn)品（如：VPN、Privatelink以及少量GA實例）在此次故障中受到影響。12月18日11:21，工程師啟動網(wǎng)絡產(chǎn)品可用區(qū)容災逃逸，12:45完成SLB等大部分網(wǎng)絡產(chǎn)品可用區(qū)容災逃逸，13:47NAT產(chǎn)品完成收尾逃逸。除上述少量單可用區(qū)產(chǎn)品以外，各網(wǎng)絡產(chǎn)品在故障期間保持了業(yè)務連續(xù)性，NAT有分鐘級業(yè)務受損。

12月18日10:17開始，阿里云香港Region可用區(qū)C部分RDS實例出現(xiàn)不可用的報警。隨著該可用區(qū)受故障影響的主機范圍擴大，出現(xiàn)服務異常的實例數(shù)量隨之增加，工程師啟動數(shù)據(jù)庫應急切換預案流程。截至12:30，RDS MySQL與Redis、MongoDB、DTS等跨可用區(qū)實例完成跨可用區(qū)切換。部分單可用區(qū)實例以及單可用區(qū)高可用實例，由于依賴單可用區(qū)的數(shù)據(jù)備份，僅少量實例實現(xiàn)有效遷移。少量支持跨可用區(qū)切換的RDS實例沒有及時完成切換。經(jīng)排查是由于這部分RDS實例依賴了部署在香港Region可用區(qū)C的代理服務，由于代理服務不可用，無法通過代理地址訪問RDS實例。我們協(xié)助相關客戶通過臨時切換到使用RDS主實例的地址訪問來進行恢復。隨著機房制冷設備恢復，21:30左右絕大部分數(shù)據(jù)庫實例恢復正常。對于受故障影響的單機版實例及主備均在香港Region可用區(qū)C的高可用版實例，我們提供了克隆實例、實例遷移等臨時性恢復方案，但由于底層服務資源的限制，部分實例的遷移恢復過程遇到一些異常情況，需要花費較長的時間來處理解決。

我們注意到，同時在多個可用區(qū)運行業(yè)務的客戶，在這次事件中依然可以維持業(yè)務運行。對于業(yè)務需要絕對高可用的客戶，我們持續(xù)建議您采用全鏈路多可用區(qū)的業(yè)務架構(gòu)設計，以應對各種可能的意外事件。

問題分析與改進措施

1、冷機系統(tǒng)故障恢復時間過長

原因分析：機房冷卻系統(tǒng)缺水進氣形成氣阻，影響水路循環(huán)導致4臺主冷機服務異常，啟動4臺備冷機時因主備共用的水路循環(huán)系統(tǒng)氣阻導致啟動失敗。水盤補水后，因機房冷卻系統(tǒng)的群控邏輯，無法單臺獨立啟動冷機，手工修改冷機配置，將冷機從群控調(diào)整為獨立運行后，陸續(xù)啟動冷機，影響了冷卻系統(tǒng)的恢復時長。整個過程中，原因定位耗時3小時34分鐘，補水排氣耗時2小時57分鐘，解鎖群控邏輯啟動4臺冷機耗時3小時32分鐘。

改進措施：全面檢查機房基礎設施管控系統(tǒng)，在監(jiān)控數(shù)據(jù)采集層面，擴大覆蓋度，提升精細度，提高對故障的排查和定位速度；在設施管控邏輯層面，確保系統(tǒng)自動切換邏輯符合預期，同時保證手工切換的準確性，防止內(nèi)部狀態(tài)死鎖從而影響故障的恢復。

2、現(xiàn)場處置不及時導致觸發(fā)消防噴淋

原因分析：隨著機房冷卻系統(tǒng)失效，包間溫度逐漸升高，導致一機房包間溫度達到臨界值觸發(fā)消防系統(tǒng)噴淋，電源柜和多列機柜進水，部分機器硬件損壞，增加了后續(xù)恢復難度和時長。

改進措施：加強機房服務商管理，梳理機房溫升預案及標準化執(zhí)行動作，明確溫升場景下的業(yè)務側(cè)關機和機房強制關電的預案，力求更簡單有效，并通過常態(tài)化演練強化執(zhí)行。

3、客戶在香港地域新購ECS等管控操作失敗

原因分析：ECS管控系統(tǒng)為B、C可用區(qū)雙機房容災，C可用區(qū)故障后由B可用區(qū)對外提供服務，由于大量可用區(qū)C的客戶在香港其他可用區(qū)新購實例，同時可用區(qū)C的ECS實例拉起恢復動作引入的流量，導致可用區(qū) B 管控服務資源不足。新擴容的ECS管控系統(tǒng)啟動時依賴的中間件服務部署在可用區(qū)C機房，導致較長時間內(nèi)無法擴容。ECS管控依賴的自定義鏡像數(shù)據(jù)服務，依賴可用區(qū)C的單AZ冗余版本的OSS服務，導致客戶新購實例后出現(xiàn)啟動失敗的現(xiàn)象。

改進措施：全網(wǎng)巡檢，整體優(yōu)化多AZ產(chǎn)品高可用設計，避免出現(xiàn)依賴OSS單AZ和中間件單AZ的問題。加強阿里云管控平面的容災演練，進一步提升云產(chǎn)品高可用容災逃逸能力。

4、故障信息發(fā)布不夠及時透明

原因分析：故障發(fā)生后阿里云啟動對客釘群、公告等通知手段，由于現(xiàn)場冷機處理進展緩慢，有效信息不夠。Status Page頁面信息更新不及時引發(fā)客戶困惑。

改進措施：提升故障影響和客戶影響的快速評估和識別拉取能力。盡快上線新版的阿里云服務健康狀態(tài)頁面（Status Page），提高信息發(fā)布的速度，讓客戶可以更便捷地了解故障事件對各類產(chǎn)品服務的影響。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 阿里云 服務器

評論

相關推薦

基于CAN-bus總線的模擬空調(diào)溫濕控制系統(tǒng)

資源下載周立功單片機 CAN-bus 總線模擬空調(diào)溫濕控制系統(tǒng) 組態(tài)軟件 MCGS OPC 服務器 | 2007-03-30

測試一下我的 ftp 服務器

powercxz | 2002-12-18

聯(lián)想億萬次服務器驚曝內(nèi)幕曙光請律師欲討說法

hpnet | 2002-09-10

國嵌應用班-7-5（并發(fā)服務器）

視頻國嵌 Linux 嵌入式網(wǎng)絡服務器 | 2013-11-06

多串口設備聯(lián)網(wǎng)服務器新產(chǎn)品介紹

資源下載致遠電子 NETCOM 多串口以太網(wǎng) 服務器 AN070115 | 2007-03-30

校園智慧管理與服務系統(tǒng)

視頻信息技術大賽單片機 STC15F2K61S2 服務器 | 2013-01-11

ZOPC_Server(基于CAN-bus通用OPC服務器)簡介

資源下載 CAN-bus 通用 OPC 服務器 ZOPC_Server | 2007-03-30

預估2024年AI服務器產(chǎn)值約占服務器市場比重65%

網(wǎng)絡與存儲 AI服務器服務器 TrendForce | 2024-07-18

服務器支撐下半年需求，預估DRAM價格第三季漲幅達8-13%

網(wǎng)絡與存儲服務器 DRAM TrendForce | 2024-06-27

尋找英偉達的阿喀琉斯之踵

智能計算英偉達 GPU AI 數(shù)據(jù)中心服務器 | 2024-06-01

DIGITIMES：2024年全球服務器GPU產(chǎn)值首破千億

網(wǎng)絡與存儲 DIGITIMES 服務器 GPU | 2024-06-25

AbsoluteFTP

資源下載文件傳輸 FTP 服務器 AbsoluteFTP | 2007-02-09

我國西部首個，重慶算力互聯(lián)互通平臺在兩江新區(qū)上線

智能計算云計算網(wǎng)絡服務器 | 2024-07-11

淺析數(shù)據(jù)中心UPS供電系統(tǒng)演進方向

設計方案 UPS PFC 服務器供電系統(tǒng) 數(shù) | 2015-07-28

[來自SOHU]“龍芯”CPU問世

★被水淹死的魚★ | 2002-09-29

基于STM32智能家居系統(tǒng)的設計與實現(xiàn)

設計方案 STM32 語音識別服務器智能家居 | 2015-03-21

論壇將換服務器！

Gao | 2002-12-02

服務器

設計方案服務器電源 | 2014-12-31

上游供應鏈庫存回補及需求增溫，第三季服務器出貨增幅4-5%

網(wǎng)絡與存儲服務器 TrendForce | 2024-07-01

阿里云推出首個AI程序員

智能計算阿里云 AI 通義靈碼 | 2024-06-24

微軟終止水下數(shù)據(jù)中心實驗項目，故障率僅0.7%

網(wǎng)絡與存儲微軟服務器數(shù)據(jù)中心 | 2024-06-25

ZOPC_Server(基于CAN-bus通用OPC服務器)軟件

資源下載 CAN-bus 通用 OPC 服務器 ZOPC_Server | 2007-03-30

基于多線程掃描的網(wǎng)絡拓撲邊界監(jiān)測系統(tǒng)設計

設計方案網(wǎng)絡拓撲 SNMP 服務器 | 2015-06-11

英偉達帶飛服務器全年無淡季

網(wǎng)絡與存儲英偉達服務器 | 2024-07-02

公司在測試視頻服務器，現(xiàn)在要一邊工作，一邊看電影

★被水淹死的魚★ | 2002-11-02

研華推出面向生成式AI的邊緣AI服務器解決方案

智能計算研華生成式AI 邊緣AI 服務器 | 2024-07-16

基于恩智浦LPC2927和WEB服務器的智能環(huán)境監(jiān)控系統(tǒng)電路圖

設計方案基于恩智 LPC2927 服務器智能環(huán)境監(jiān)控系統(tǒng) 電 | 2010-01-21

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();