黑色星期五前的意外

2021/12/12閱讀時間約 4 分鐘
你知道2020黑色星期五前夕,美國的Amazon電商平台發生了賣家系統與廣告系統異常的事件嗎?想知道怎麼發生的就趕快往下滑吧~
我們回到2020年11月25日,當天剛好是黑色星期五折扣開始生效的第一天,對於賣家而言當然是準備大幹一場,但不少賣家確發現他們無法進入賣家中心進行訂單處理,去看出單量居然都為0,看到這種情況賣家的心就如熱鍋上的螞蟻,後來不止是單量為0,廣告和後台的很多地方都陸續出現了故障,無法正常使用,可想而知這件事很快就在賣家的群裡炸鍋了…
圖一、Roku在 twitter 發出的聲明
據後續媒體的報導,當天 AWS 於北維吉尼亞(US-EAST-1) Region 發生了服務中斷,導致 Amazon Kinesis 服務出現問題,結果導致許多有用到該服務的網站錯誤率大幅上升影響它像網頁發布更新的能力。經調查這次的事件是因為做小規模擴容後所引起,導致服務器集群數目超過了操作系統配置所准許的最大線程數,緩存建構無法完成,前端伺服器保存無用分片數據,從而無法將請求送到後端服務器集群。很明顯這次的事件是人為上的設定上的疏失所導致,這次的事件也導致很多有用到 Amazon Kinesis服務的 AWS 服務受影響,下面我們就來認識一下哪些服務是有連動的。

✒️ 受影響的AWS服務

  • Amazon Kinesis失效 -> 引起 Cloudwatch、Cognito 失效
  • Cloudwatch 失效 -> 引起 AutoScaling 、 Lambda 失效
  • Cognito 失效 -> 引起 ECS 、 EKS provision 、 deprovision失效
圖二、AWS US-EAST-1 11/25當天的服務列表

✒️ Amazon Kinesis 為什麼這麼重要

我們可以從 Amazon Kinesis 的 3 個優勢與 4個功能來探討
Amazon Kinesis 3 個優勢
  • 即時:Amazon Kinesis 讓您能夠即時導入、緩衝和處理串流資料,所以您可以在幾秒或幾分鐘內取得洞見分析,無須耗費數小時或數天。
  • 全受管:Amazon Kinesis 是全受管的服務,無須管理任何基礎設施即可執行串流應用程式。
  • 可擴展性:Amazon Kinesis 可處理任何數量的串流資料,並以極低的延遲處理來自數十萬個來源的資料。
Amazon Kinesis 4 大功能
  • Amazon Kinesis Video Streams:擷取、處理和存放影片串流
圖三、Amazon Kinesis Video Streams
  • Amazon Kinesis Data Streams:擷取、處理和存放資料串流
圖四、Amazon Kinesis Data Streams
  • Amazon Kinesis Data Firehose:將資料串流載入 AWS 資料存放區
圖五、Amazon Kinesis Data Firehose
  • Amazon Kinesis Data Analytics:使用 SQL 或 Apache Flink 分析資料串流
圖六Amazon Kinesis Data Analytics
我們可以從這 2 個層面發現,Amazon Kinesis 可輕鬆地收集、處理和分析即時串流資料,讓你可以及時取得深入的見解並快速地對新資訊做出反應,另外我們從Amazon Kinesis 各項功能的架構圖更可以知道,Amazon Kinesis都位於整個架構中的中繼位置,所以服務一中斷就會造成慘烈的後果。

✒️ 總結

Amazon Kinesis 在 AWS 服務中有著不可取代的地位,是因為 Amazon Kinesis 是全受管的服務,能夠即時導入、緩衝和處理串流資料,所以連自家的很多服務都有連動。但失效時有連動的服務一定會受影響,像這次的事件就至少讓10個服務癱瘓,影響的公司更是不計其數,這也不經讓我們了解雲端產業對我們的生活越來越重要,與此同時,隔離失效的服務也變成是一個重要的課題,因為只有有效隔離失效的服務才能讓受影響的範圍縮小,這也讓我們理解為什麼AWS 近年來要不停的在不同的國家地區新建新的 Region 原因了。

✒️Reference :

https://reurl.cc/l5OqvY (AWS官方事件摘要)
💛 按讚並分享你的好友就是對我們最大的支持與鼓勵
為什麼會看到廣告
AWS Educate
AWS Educate
留言0
查看全部
發表第一個留言支持創作者!