2026 年 3 月 1 日凌晨,伊朗對杜拜的無人機攻擊讓 AWS ME-CENTRAL-1(UAE)區域的兩座資料中心同時受創,引發了大規模的服務中斷。EC2、S3 、DynamoDB 、Lambda 、RDS、Kinesis等關鍵服務停擺,整個 Region 的基礎設施幾乎崩潰。 比事件本身更值得深究的是, AWS 的官方更新報告在字裡行間所洩露的訊息:那些平時被反覆引用的雲端架構承諾,在這次事件面前一個接一個地開始鬆動。 以下問題點,全部來自 AWS 親口說出的原文。 可用區域「貌離神合」 AWS 官方反覆強調每個可用區域(Availability Zone)是獨立的實體機房,有獨立的電力供應、網路連線和冷卻系統,彼此之間的故障不會相互影響。理論上,只要你把服務跑在正常的 AZ,就應該沒事。 "The third Availability Zone (mec1-az1) continues to operate normally, though some services have experienced indirect impact due to dependencies on the affected zones." mec1-az1 實體上沒有受損,電力正常、機器還在跑,但因為服務層面的跨 AZ 依賴,它也跟著出問題了。AZ 的物理隔離確實存在,但「服務隔離」顯然是另一回事,而 AWS 在宣傳時常常讓這兩個概念混用。 “Amazon EC2 instance launches remain throttled in the ME-CENTRAL-1 Region and will be relaxed as foundational service recovery and capacity allow.” 假設一個企業服務在 ME-CENTRAL-1 使用 Multi-AZ Auto Scaling 部署,機器分散在 az1、az2、az3。目前 az2 和 az3 已經嚴重受損,導致這兩個 AZ 機器不可用,因此流量很可能會集中到仍然正常運作的 az1。 但 AWS 目前對 az1 新增機器的動作進行限制,Auto Scaling 很可能無法啟動新的機器來補充容量,因此剩餘的機器也無法承受原本的流量負載。 壞一個沒問題,那壞兩個...