跳到主要內容

發表文章

目前顯示的是 3月, 2026的文章

從伊朗無人機攻擊事件中找出那些 AWS 沒跟你說的事

2026 年 3 月 1 日凌晨,伊朗對杜拜的無人機攻擊讓 AWS ME-CENTRAL-1(UAE)區域的兩座資料中心同時受創,引發了大規模的服務中斷。EC2、S3 、DynamoDB 、Lambda 、RDS、Kinesis等關鍵服務停擺,整個 Region 的基礎設施幾乎崩潰。 比事件本身更值得深究的是, AWS 的官方更新報告在字裡行間所洩露的訊息:那些平時被反覆引用的雲端架構承諾,在這次事件面前一個接一個地開始鬆動。 以下問題點,全部來自 AWS 親口說出的原文。 可用區域「貌離神合」 AWS 官方反覆強調每個可用區域(Availability Zone)是獨立的實體機房,有獨立的電力供應、網路連線和冷卻系統,彼此之間的故障不會相互影響。理論上,只要你把服務跑在正常的 AZ,就應該沒事。 "The third Availability Zone (mec1-az1) continues to operate normally, though some services have experienced indirect impact due to dependencies on the affected zones." mec1-az1 實體上沒有受損,電力正常、機器還在跑,但因為服務層面的跨 AZ 依賴,它也跟著出問題了。AZ 的物理隔離確實存在,但「服務隔離」顯然是另一回事,而 AWS 在宣傳時常常讓這兩個概念混用。 “Amazon EC2 instance launches remain throttled in the ME-CENTRAL-1 Region and will be relaxed as foundational service recovery and capacity allow.” 假設一個企業服務在 ME-CENTRAL-1 使用 Multi-AZ Auto Scaling 部署,機器分散在 az1、az2、az3。目前 az2 和 az3 已經嚴重受損,導致這兩個 AZ 機器不可用,因此流量很可能會集中到仍然正常運作的 az1。 但 AWS 目前對 az1 新增機器的動作進行限制,Auto Scaling 很可能無法啟動新的機器來補充容量,因此剩餘的機器也無法承受原本的流量負載。 壞一個沒問題,那壞兩個...

AWS雲端資料中心第一次因為戰爭導致服務中斷?

AWS UAE Region 因被不明物體擊中導致其中AZ服務斷線。這應該是有史以來第一次雲端資料中心因為戰爭導致服務中斷的案例,特別紀錄起來,以後就可以嚇嚇客戶了。 AWS多次在其Well-Architected Framwork當中提到你要部屬Muti-Region, Muti-AZ架構,為了 就是要賺更多錢, 避免因為單一數據中心斷線而你的服務跟著一起斷線。提到的原因通常是天災、戰爭、斷水斷電等各種不可抗力因素。 但AWS用久了你就會發現(好像也不用多久?),AWS斷線幾乎都是因為人為錯誤原因( 例如又有人搞壞了DNS ),而不是這些聽起來有點遙遠的不可抗力因素。而這次美以伊戰爭示範給大家看,即使你不是戰爭國家的Region,還是有可能被波及到,導致服務斷線。 然而一個AZ可以被建立的資源是有限的,當今天突然有大量的請求要在某AZ新增資源(大家開始執行DR),這時可能就要拼建立速度,誰先建先贏。晚到的可能又出現錯誤訊息的情況,這時資料有沒有Muti-Region備份就變得很重要。 但重點是,現在政府各種強調資料主權,如果是被法規限制的行業,資料不可能在其他國家進行備份。所以這些企業或政府可能要Muti-Cloud架構,並且祈禱另一個雲服務的資料中心所在位置不會有事。但實務上有多少企業或機關有錢到可以做Muti-Cloud架構呢? 3月1日 太平洋時間上午9時41分 我們希望提供有關ME-CENTRAL-1地區單一可用區電力問題的額外資訊。在太平洋時間上午4時30分左右,我們的其中一個可用區(mec1-az2)受到撞擊資料中心的物體影響,產生火花和火災。消防部門在滅火過程中關閉了設施和發電機的電源。我們仍在等待開啟電源的許可,一旦獲准,我們將確保安全地恢復電源和連接。 上述說明當地消防部門因為要滅火關閉了電源,AWS正在等待電源開啟許可,所以他們也無法做什麼。聽起來有點耳熟?好像平常代理商會跟客戶說的,因為你用的是AWS全託管服務,所以如果服務壞了我們也不能做什麼。 事故截至目前從本來只有 mec1-az2被斷線,現在 mec1-az3也斷了。雖然 mec1-az1現有資源正常,但也無法新增機器了。