2025 -10 -20 Amazon雲端服務(AWS )造成的大停擺原因

更新 發佈閱讀 6 分鐘

由 AWS us-east-1 (北維吉尼亞) 區域引發的全球性大規模服務中斷。

raw-image

原因來自並不是 DynamoDB 服務本身的全面故障,而是由一個更底層、更核心的內部 DNS 解析服務故障引起的,這個服務恰好就是用來「自動化」管理 VPC 內部對 AWS 服務(包括 DynamoDB)的連線。核心故障點:DynamoDB 的 DNS 自動化更新失敗

​這次事件的根源並非 DynamoDB 資料庫服務本身(資料沒有遺失),而是「自動化系統」在更新 DynamoDB 端點的「DNS 解析」時出現了災難性錯誤。

  1. 觸發點:錯誤的自動化部署 AWS 在 us-east-1 區域(這是 AWS 最老、最大、也是最多核心服務依賴的區域)執行了一個自動化腳本或模組,目的是更新 DynamoDB 的 DNS 設定。
  2. 核心故障:DNS 解析遭到破壞 這個「自動化模組」存在缺陷,它並未如預期般更新 DNS 紀錄,反而導致了 us-east-1 區域中 DynamoDB 服務端點的 DNS 紀錄大規模解析失敗

用口語化來舉例描述:

想像一下,AWS 就像一棟超級巨大、超級複雜的「辦公大樓」(這棟大樓就是 us-east-1 區域)。

  1. DynamoDB = 大樓的「中央檔案室」 這棟大樓裡最重要的房間,就是「中央檔案室」(DynamoDB)。所有部門(像是「保全部門」、「會計部門」、「IT 部門」)都需要隨時衝進這個檔案室拿資料,才能完成自己的工作。
  2. DNS = 大樓的「電子樓層指南」 因為大樓太大了,所以大樓的入口處有一個「電子樓層指南」(DNS)。你必須先查這個指南,才知道「中央檔案室」到底在幾樓、哪個角落(它的 IP 位址)。
  3. 「自動化模組」 = 更新指南的「工讀生機器人」 AWS 派了一個「工讀生機器人」(自動化模組)去做一件很簡單的事:更新這個「電子樓層指南」,可能只是要改個小標示。

​2025 年 10 月 20 日那天發生了什麼事?

這個「工讀生機器人」出包了。

​它在更新指南的時候,不但沒更新好,還手滑把「中央檔案室」那一頁整個撕掉了!

​接著,大停擺就開始了(連鎖反應):

「保全部門」(Cognito) 說:「我要查檔案室的訪客紀錄,才能幫大家刷卡進門!」

  • 他跑去看指南... 指南上沒有檔案室的位址。
  • 結果: 所有員工(用戶)全部卡在公司門口,無法登入

「IT 部門」(Lambda) 說:「我要去檔案室拿程式碼才能跑程式!」

  • 他跑去看指南... 指南上沒有檔案室的位址
  • 結果: 所有 App 和網站的後台功能全部癱瘓

「會計部門」(Kinesis) 說:「我要把新的帳單資料放進檔案室!」

  • 他跑去看指南... 指南上沒有檔案室的位址。
  • 結果: 所有資料(數據)都送不進去,資料流中斷

最慘的來了:「大樓管理處」(AWS 控制台) 管理處的工程師發現:「天啊!指南壞了!我們趕快派人去修!」

  • 他們要拿出「維修手冊」..
  • ...結果發現,「維修手冊」也鎖在「中央檔案室」裡!(管理工具也依賴 DynamoDB)。

​總結

​所以,2025 年 10 月 20 日的大停擺,並不是「中央檔案室」(DynamoDB) 燒掉了或資料不見了。

​而是 AWS 派去更新「樓層指南」的機器人(自動化模組)耍笨,把「中央檔案室」的地址從指南上抹掉了

​因為這棟大樓裡的所有部門都極度依賴這個指南去找檔案室,所以當指南一壞,整棟大樓(us-east-1)就陷入了全面停擺。

核心策略:不要把雞蛋放在同一個籃子裡 (Multi-Region / 跨區域容錯)

​但成本極高。

  • 概念: us-east-1(北維吉尼亞)籃子出事了,那我就在 us-west-2(奧勒岡)或 ap-northeast-1(東京)再放一個籃子。
  • 做法:
    1. 自動交通警察 (Route 53): 使用 AWS 的 DNS 服務 (Route 53),設定「故障轉移」(Failover)。它會像個聰明的交通警察,不斷檢查 us-east-1 的「路」通不通。
      • ​一旦發現 us-east-1 堵死了(健康檢查失敗),它會自動把所有用戶的流量導向你位於 us-west-2 的備用系統。
    2. 資料同步 (DynamoDB Global Tables): us-east-1 的「檔案室」(DynamoDB) 雖然沒壞,但「門」(DNS)被堵住了。你必須在 us-west-2 也蓋一個一模一樣的檔案室,並且讓這兩個檔案室的資料即時自動同步。這就是 DynamoDB「全域資料表」(Global Tables) 的功能。
    3. 備用系統 (Compute): 你的 Lambda 函數或 EC2 伺服器,也必須在 us-west-2 部署一套一模一樣的。
  • 結果: 當 2025 年 10 月 20 日事件發生時,你的「交通警察」(Route 53) 會在幾分鐘內偵測到 us-east-1 失聯,然後自動把所有用戶都導向 us-west-2。你的用戶可能只會感覺到網站卡了 1-2 分鐘,然後就恢復正常了。
留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
1會員
92內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/10/20
下午突然 amazon 的 vibe coding IDE: Kiro 突然出現 無法登入連線使用的狀況 , 當已經開始依賴以AI模型協助開發的節奏被打亂,突然有種無力感。一行又一行的程式碼,彷彿都在等待那個熟悉的AI助手回應,但螢幕上只有冰冷的「無法連線」,會讓人的思緒跟著卡關。 雖然完全
Thumbnail
2025/10/20
下午突然 amazon 的 vibe coding IDE: Kiro 突然出現 無法登入連線使用的狀況 , 當已經開始依賴以AI模型協助開發的節奏被打亂,突然有種無力感。一行又一行的程式碼,彷彿都在等待那個熟悉的AI助手回應,但螢幕上只有冰冷的「無法連線」,會讓人的思緒跟著卡關。 雖然完全
Thumbnail
2025/10/17
各位正在大學、學院努力學習的朋友們,有個超級好康的消息要分享給你們!微軟(Microsoft)推出了一項超讚的學生專屬優惠,讓你能夠免費獲得 12 個月的 Microsoft 365 個人版,之後還能享有超值折扣! 這不只是 Word、Excel、PowerPoint,還包含了 1 TB 雲端儲存
Thumbnail
2025/10/17
各位正在大學、學院努力學習的朋友們,有個超級好康的消息要分享給你們!微軟(Microsoft)推出了一項超讚的學生專屬優惠,讓你能夠免費獲得 12 個月的 Microsoft 365 個人版,之後還能享有超值折扣! 這不只是 Word、Excel、PowerPoint,還包含了 1 TB 雲端儲存
Thumbnail
2025/10/08
這是一個非常優惠的學生方案,讓符合資格的大學生可以免費使用 Google 最頂尖的 AI 功能。 方案主要福利: 免費使用 Gemini Advanced:您可以直接使用 Google 更強大的 AI 模型(例如 Gemini 1.5 Pro),擁有更長的上下文理解能力、更強的邏輯推理和創意生成
Thumbnail
2025/10/08
這是一個非常優惠的學生方案,讓符合資格的大學生可以免費使用 Google 最頂尖的 AI 功能。 方案主要福利: 免費使用 Gemini Advanced:您可以直接使用 Google 更強大的 AI 模型(例如 Gemini 1.5 Pro),擁有更長的上下文理解能力、更強的邏輯推理和創意生成
Thumbnail
看更多
你可能也想看
Thumbnail
有史以來最大的網路災難,應該是上個星期發生的,看似全球性的電腦平台大當機。該事件導致多家航空公司訂位系統無法操作,飛機導航失靈,還有銀行體系以及類似美國911緊急電話系統的停擺,影響的面和個人堪稱史無前例。 因此,全球媒體不約而同的爭相報導,最驚人的下標就是「微軟系統全球大當機」。一時間,讓人以為
Thumbnail
有史以來最大的網路災難,應該是上個星期發生的,看似全球性的電腦平台大當機。該事件導致多家航空公司訂位系統無法操作,飛機導航失靈,還有銀行體系以及類似美國911緊急電話系統的停擺,影響的面和個人堪稱史無前例。 因此,全球媒體不約而同的爭相報導,最驚人的下標就是「微軟系統全球大當機」。一時間,讓人以為
Thumbnail
想像一下,你今天醒來,發現整個世界似乎都停止運轉了。這不是科幻電影的情節,而是2024年7月19日真實發生的事件。一家頂級網絡安全公司的一個小失誤,竟然造成了全球範圍內的混亂。讓我們一起深入了解這場前所未有的技術災難。
Thumbnail
想像一下,你今天醒來,發現整個世界似乎都停止運轉了。這不是科幻電影的情節,而是2024年7月19日真實發生的事件。一家頂級網絡安全公司的一個小失誤,竟然造成了全球範圍內的混亂。讓我們一起深入了解這場前所未有的技術災難。
Thumbnail
隨著科技的進步和企業對數位轉型需求的增加,雲端計算成為現代資訊科技的核心。現今市場上有三大主要雲端平台,它們分別是 Amazon Web Services(AWS)、Microsoft Azure 和 Google Cloud Platform(GCP)。這些平台提供廣泛的服務和解決方案,滿足不同規
Thumbnail
隨著科技的進步和企業對數位轉型需求的增加,雲端計算成為現代資訊科技的核心。現今市場上有三大主要雲端平台,它們分別是 Amazon Web Services(AWS)、Microsoft Azure 和 Google Cloud Platform(GCP)。這些平台提供廣泛的服務和解決方案,滿足不同規
Thumbnail
科技七雄之一的亞馬遜Amazon,我們來解析一些數據與圖表來解析看看這家公司還能不能進場與繼續持有。
Thumbnail
科技七雄之一的亞馬遜Amazon,我們來解析一些數據與圖表來解析看看這家公司還能不能進場與繼續持有。
Thumbnail
- 亞馬遜雲端部門將投資 170 億美元在西班牙建置資料中心 |路透社 - 谷歌在芬蘭哈米納資料中心啟動熱回收項目|DCD 資料中心動態 - G7 財長會後聯合聲明,關注共同應對中國產能過剩 |科技新報 - 避險台海危機!馬斯克逼供應商在第3地生產,「避開中國與台灣」防零組件斷鏈|數位時代
Thumbnail
- 亞馬遜雲端部門將投資 170 億美元在西班牙建置資料中心 |路透社 - 谷歌在芬蘭哈米納資料中心啟動熱回收項目|DCD 資料中心動態 - G7 財長會後聯合聲明,關注共同應對中國產能過剩 |科技新報 - 避險台海危機!馬斯克逼供應商在第3地生產,「避開中國與台灣」防零組件斷鏈|數位時代
Thumbnail
為何很多公司很怕Amazon? 亞馬遜有大筆資金可以侵入其它公司的專業領域 擁有電商平台、Alexa助理,進而可以搶走Google search或其他網站上搜索流量然後掌握顧客數據 亞馬遜本質上不是一家電商或科技公司,他是一家基礎設施(雲端計算、物流)公司所以具有強大的核心競爭力 Amazo
Thumbnail
為何很多公司很怕Amazon? 亞馬遜有大筆資金可以侵入其它公司的專業領域 擁有電商平台、Alexa助理,進而可以搶走Google search或其他網站上搜索流量然後掌握顧客數據 亞馬遜本質上不是一家電商或科技公司,他是一家基礎設施(雲端計算、物流)公司所以具有強大的核心競爭力 Amazo
Thumbnail
AMZN 1Q24 繳出亮眼財報,其中 AWS 成長超預期,跟上 Azure、Google Cloud 等出現強勁的 YoY 復甦,這顯示了企業在雲端上的成本優化 (Cost Optimization) 歷經了 2022、2023 這二年之後,已經見到了放鬆的跡象。 AMZN 1Q24 財報表
Thumbnail
AMZN 1Q24 繳出亮眼財報,其中 AWS 成長超預期,跟上 Azure、Google Cloud 等出現強勁的 YoY 復甦,這顯示了企業在雲端上的成本優化 (Cost Optimization) 歷經了 2022、2023 這二年之後,已經見到了放鬆的跡象。 AMZN 1Q24 財報表
Thumbnail
AI 訓練與推理要用電、EV要用電、半導體製造業回流要用電。同時也吃到再生能源轉型與天然氣等減排發電題材的公司,會有很長的成長跑道。Data Center 資料中心的建置與營運,使得周邊的供應鏈需求有顯著的成長。
Thumbnail
AI 訓練與推理要用電、EV要用電、半導體製造業回流要用電。同時也吃到再生能源轉型與天然氣等減排發電題材的公司,會有很長的成長跑道。Data Center 資料中心的建置與營運,使得周邊的供應鏈需求有顯著的成長。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News