由 AWS us-east-1 (北維吉尼亞) 區域引發的全球性大規模服務中斷。

原因來自並不是 DynamoDB 服務本身的全面故障,而是由一個更底層、更核心的內部 DNS 解析服務故障引起的,這個服務恰好就是用來「自動化」管理 VPC 內部對 AWS 服務(包括 DynamoDB)的連線。核心故障點:DynamoDB 的 DNS 自動化更新失敗
這次事件的根源並非 DynamoDB 資料庫服務本身(資料沒有遺失),而是「自動化系統」在更新 DynamoDB 端點的「DNS 解析」時出現了災難性錯誤。- 觸發點:錯誤的自動化部署 AWS 在 us-east-1 區域(這是 AWS 最老、最大、也是最多核心服務依賴的區域)執行了一個自動化腳本或模組,目的是更新 DynamoDB 的 DNS 設定。
- 核心故障:DNS 解析遭到破壞 這個「自動化模組」存在缺陷,它並未如預期般更新 DNS 紀錄,反而導致了 us-east-1 區域中 DynamoDB 服務端點的 DNS 紀錄大規模解析失敗。
用口語化來舉例描述:
想像一下,AWS 就像一棟超級巨大、超級複雜的「辦公大樓」(這棟大樓就是 us-east-1 區域)。
- DynamoDB = 大樓的「中央檔案室」 這棟大樓裡最重要的房間,就是「中央檔案室」(DynamoDB)。所有部門(像是「保全部門」、「會計部門」、「IT 部門」)都需要隨時衝進這個檔案室拿資料,才能完成自己的工作。
- DNS = 大樓的「電子樓層指南」 因為大樓太大了,所以大樓的入口處有一個「電子樓層指南」(DNS)。你必須先查這個指南,才知道「中央檔案室」到底在幾樓、哪個角落(它的 IP 位址)。
- 「自動化模組」 = 更新指南的「工讀生機器人」 AWS 派了一個「工讀生機器人」(自動化模組)去做一件很簡單的事:更新這個「電子樓層指南」,可能只是要改個小標示。
2025 年 10 月 20 日那天發生了什麼事?
這個「工讀生機器人」出包了。
它在更新指南的時候,不但沒更新好,還手滑把「中央檔案室」那一頁整個撕掉了!
接著,大停擺就開始了(連鎖反應):
「保全部門」(Cognito) 說:「我要查檔案室的訪客紀錄,才能幫大家刷卡進門!」
- 他跑去看指南... 指南上沒有檔案室的位址。
- 結果: 所有員工(用戶)全部卡在公司門口,無法登入。
「IT 部門」(Lambda) 說:「我要去檔案室拿程式碼才能跑程式!」
- 他跑去看指南... 指南上沒有檔案室的位址
- 結果: 所有 App 和網站的後台功能全部癱瘓。
「會計部門」(Kinesis) 說:「我要把新的帳單資料放進檔案室!」
- 他跑去看指南... 指南上沒有檔案室的位址。
- 結果: 所有資料(數據)都送不進去,資料流中斷。
最慘的來了:「大樓管理處」(AWS 控制台) 管理處的工程師發現:「天啊!指南壞了!我們趕快派人去修!」
- 他們要拿出「維修手冊」..
- ...結果發現,「維修手冊」也鎖在「中央檔案室」裡!(管理工具也依賴 DynamoDB)。
總結
所以,2025 年 10 月 20 日的大停擺,並不是「中央檔案室」(DynamoDB) 燒掉了或資料不見了。
而是 AWS 派去更新「樓層指南」的機器人(自動化模組)耍笨,把「中央檔案室」的地址從指南上抹掉了。
因為這棟大樓裡的所有部門都極度依賴這個指南去找檔案室,所以當指南一壞,整棟大樓(us-east-1)就陷入了全面停擺。
核心策略:不要把雞蛋放在同一個籃子裡 (Multi-Region / 跨區域容錯)
但成本極高。
- 概念: us-east-1(北維吉尼亞)籃子出事了,那我就在 us-west-2(奧勒岡)或 ap-northeast-1(東京)再放一個籃子。
- 做法:
- 自動交通警察 (Route 53): 使用 AWS 的 DNS 服務 (Route 53),設定「故障轉移」(Failover)。它會像個聰明的交通警察,不斷檢查 us-east-1 的「路」通不通。
- 一旦發現 us-east-1 堵死了(健康檢查失敗),它會自動把所有用戶的流量導向你位於 us-west-2 的備用系統。
- 資料同步 (DynamoDB Global Tables): us-east-1 的「檔案室」(DynamoDB) 雖然沒壞,但「門」(DNS)被堵住了。你必須在 us-west-2 也蓋一個一模一樣的檔案室,並且讓這兩個檔案室的資料即時自動同步。這就是 DynamoDB「全域資料表」(Global Tables) 的功能。
- 備用系統 (Compute): 你的 Lambda 函數或 EC2 伺服器,也必須在 us-west-2 部署一套一模一樣的。
- 結果: 當 2025 年 10 月 20 日事件發生時,你的「交通警察」(Route 53) 會在幾分鐘內偵測到 us-east-1 失聯,然後自動把所有用戶都導向 us-west-2。你的用戶可能只會感覺到網站卡了 1-2 分鐘,然後就恢復正常了。















