AWS UAE Region 因被不明物體擊中導致其中AZ服務斷線。這應該是有史以來第一次雲端資料中心因為戰爭導致服務中斷的案例,特別紀錄起來,以後就可以嚇嚇客戶了。
AWS多次在其Well-Architected Framwork當中提到你要部屬Muti-Region, Muti-AZ架構,為了就是要賺更多錢,避免因為單一數據中心斷線而你的服務跟著一起斷線。提到的原因通常是天災、戰爭、斷水斷電等各種不可抗力因素。
但AWS用久了你就會發現(好像也不用多久?),AWS斷線幾乎都是因為人為錯誤原因(例如又有人搞壞了DNS),而不是這些聽起來有點遙遠的不可抗力因素。而這次美以伊戰爭示範給大家看,即使你不是戰爭國家的Region,還是有可能被波及到,導致服務斷線。
然而一個AZ可以被建立的資源是有限的,當今天突然有大量的請求要在某AZ新增資源(大家開始執行DR),這時可能就要拼建立速度,誰先建先贏。晚到的可能又出現錯誤訊息的情況,這時資料有沒有Muti-Region備份就變得很重要。
但重點是,現在政府各種強調資料主權,如果是被法規限制的行業,資料不可能在其他國家進行備份。所以這些企業或政府可能要Muti-Cloud架構,並且祈禱另一個雲服務的資料中心所在位置不會有事。但實務上有多少企業或機關有錢到可以做Muti-Cloud架構呢?
3月1日 太平洋時間上午9時41分 我們希望提供有關ME-CENTRAL-1地區單一可用區電力問題的額外資訊。在太平洋時間上午4時30分左右,我們的其中一個可用區(mec1-az2)受到撞擊資料中心的物體影響,產生火花和火災。消防部門在滅火過程中關閉了設施和發電機的電源。我們仍在等待開啟電源的許可,一旦獲准,我們將確保安全地恢復電源和連接。
上述說明當地消防部門因為要滅火關閉了電源,AWS正在等待電源開啟許可,所以他們也無法做什麼。聽起來有點耳熟?好像平常代理商會跟客戶說的,因為你用的是AWS全託管服務,所以如果服務壞了我們也不能做什麼。
事故截至目前從本來只有mec1-az2被斷線,現在mec1-az3也斷了。雖然mec1-az1現有資源正常,但也無法新增機器了。
留言
張貼留言