Amazon RDS故障時的初步調查(工作日常)

更新於 發佈於 閱讀時間約 2 分鐘

1.檢查AWS Health Dashboard


通過檢查 Health Dashboard ,可以得知 AWS 帳戶特定的故障通知 與 AWS 服務和區域故障報告。您可以注意到如 執行了緊急硬件維護 或 與 RDS相關的服務出現故障,導致無法連接到RDS之類的訊息。

2. 檢查 Maintenance 時間


我在一段時間內無法連接到 RDS!

發生意外重啟事件!

在上述情況下,如果檢查故障時間和維護時段是否重疊,會發現維護時段期間執行了小版本自動升級,並且執行了需要資源下線的維護。事情已經完成了。


3. 檢查 RDS Events


在管理控制台上,您可以查看過去 24 小時內與 Amazon RDS 相關的以下事件。

・資料庫實例事件

・資料庫參數組事件

・資料庫安全組事件

・資料庫快照事件

・RDS 代理事件

・自定義引擎版本事件




但是,需要使用 AWS CLI 檢查超過24 小時前發生的事件,因此請執行以下 AWS CLI 命令來檢查最近兩週內的事件。


aws rds describe-events --source-identifier --source-type db-instance --duration 20160


通過執行上述命令,您可以查看待排查實例的故障轉移等RDS事件。


4. 檢查 CloudWatch 中的每個指標


如果故障原因仍然未知,請檢查 CloudWatch 指標

CPU Utilization

CPU CreditBalance

Database Connections

FreeableMemory

FreeStorage Space

SwapUsage

網路吞吐量(IN/OUT)和 IOPS(讀/寫請求)指標。

如果其他客戶報告 Aurora 正在進行故障轉移,請檢查 AuroraReplicaLag 指標以查看故障轉移是否是由副本延遲增加引起的。

這是因為對於 Amazon Aurora,如果副本滯後持續超過 100 毫秒,就會被判斷為故障,並會發生故障轉移。(當副本延遲超過 100 毫秒時,它並不總是會進行故障轉移。)

5.後續調查


後續調查將使用增強監控、性能洞察和各種日誌進行。

此外,如果AWS基礎設施方面存在故障的可能性,我們可能會要求AWS利用我們的技術支持調查結果進行調查。


增強監控(必須啟用)

使用增強監控監控操作系統指標


Performance Insights(必須啟用)

使用 Amazon RDS 上的 Performance Insights 監控資料庫負載

啟用 Logs

使用Logs進行調查。


留言
avatar-img
留言分享你的想法!
avatar-img
西尼亞ming的沙龍
16會員
80內容數
西尼亞ming的沙龍的其他內容
2024/11/05
在ops-agent當中可以安裝 JVM 來收集 Java 參數,該工具主要收集 memory 以及 garbage collection 的參數,其中監控的選項有包含以下: jvm.classes.loaded jvm.gc.collections.count jvm.gc.collec
2024/11/05
在ops-agent當中可以安裝 JVM 來收集 Java 參數,該工具主要收集 memory 以及 garbage collection 的參數,其中監控的選項有包含以下: jvm.classes.loaded jvm.gc.collections.count jvm.gc.collec
2024/11/05
**Google Cloud 操作與 Audit Logs 說明** Google Cloud 作為純雲端服務提供商,所有操作均透過 HTTPS 網頁或 API 呼叫完成,並無「登入專案」的行為紀錄。不過,若使用 Google Workspace 管理使用者身份,則可以透過 Google
2024/11/05
**Google Cloud 操作與 Audit Logs 說明** Google Cloud 作為純雲端服務提供商,所有操作均透過 HTTPS 網頁或 API 呼叫完成,並無「登入專案」的行為紀錄。不過,若使用 Google Workspace 管理使用者身份,則可以透過 Google
2024/11/05
使用 Storage Transfer 服務是否能降低成本? Storage Transfer 的計價方式針對從 Cloud Storage 轉移至 Cloud Storage,除了一般費用外,Storage 移轉服務會使用 Cloud Storage rewrite 作業在 Cloud
2024/11/05
使用 Storage Transfer 服務是否能降低成本? Storage Transfer 的計價方式針對從 Cloud Storage 轉移至 Cloud Storage,除了一般費用外,Storage 移轉服務會使用 Cloud Storage rewrite 作業在 Cloud
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
前篇內容提到說,async reset有著打出glitch的風險, 但除了glitch之外, 如果reset deassert的時間點不對的話可是造出大量metastable的data, 直接導致function fail, 至於assert的時間點因為是async reset,所以何時出發
Thumbnail
前篇內容提到說,async reset有著打出glitch的風險, 但除了glitch之外, 如果reset deassert的時間點不對的話可是造出大量metastable的data, 直接導致function fail, 至於assert的時間點因為是async reset,所以何時出發
Thumbnail
Amazon 與 Walmart 提供的後台報表是非常先進的報表,強調在數據中發現洞察並直接給出可行的建議。Google 的第三方 Cookie 保留決定對行銷人員、廣告商及 Martech 工具產生重大影響。Email 成效驗證充滿疑點,應注重「到達率」、「打開率」與「點擊率」。
Thumbnail
Amazon 與 Walmart 提供的後台報表是非常先進的報表,強調在數據中發現洞察並直接給出可行的建議。Google 的第三方 Cookie 保留決定對行銷人員、廣告商及 Martech 工具產生重大影響。Email 成效驗證充滿疑點,應注重「到達率」、「打開率」與「點擊率」。
Thumbnail
這篇文章記錄了一次特殊的電腦維修案例,客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......
Thumbnail
這篇文章記錄了一次特殊的電腦維修案例,客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......
Thumbnail
你遇到家中電腦老化了嗎?如果你有ASUS維修困擾,那麼趕快往下閱讀吧! 1. 電池老化,無法長時間待機 ASUS筆電的電池屬於消耗品,老化可能是正常耗損所致,也可能因長期插著電源使用導致耗損加快。建議每2年更換一次電池,以保持最佳狀態。 2. 筆電無法開機,指示燈未亮 如果電池指示燈未亮,可
Thumbnail
你遇到家中電腦老化了嗎?如果你有ASUS維修困擾,那麼趕快往下閱讀吧! 1. 電池老化,無法長時間待機 ASUS筆電的電池屬於消耗品,老化可能是正常耗損所致,也可能因長期插著電源使用導致耗損加快。建議每2年更換一次電池,以保持最佳狀態。 2. 筆電無法開機,指示燈未亮 如果電池指示燈未亮,可
Thumbnail
AMZN 1Q24 繳出亮眼財報,其中 AWS 成長超預期,跟上 Azure、Google Cloud 等出現強勁的 YoY 復甦,這顯示了企業在雲端上的成本優化 (Cost Optimization) 歷經了 2022、2023 這二年之後,已經見到了放鬆的跡象。 AMZN 1Q24 財報表
Thumbnail
AMZN 1Q24 繳出亮眼財報,其中 AWS 成長超預期,跟上 Azure、Google Cloud 等出現強勁的 YoY 復甦,這顯示了企業在雲端上的成本優化 (Cost Optimization) 歷經了 2022、2023 這二年之後,已經見到了放鬆的跡象。 AMZN 1Q24 財報表
Thumbnail
由於電腦突然出現故障,導致檔案丟失以及電腦無法正常使用,故今日臨時停更一次,沿至下禮拜五更新
Thumbnail
由於電腦突然出現故障,導致檔案丟失以及電腦無法正常使用,故今日臨時停更一次,沿至下禮拜五更新
Thumbnail
每日自動檢查資料庫運作所產生的訊息,若發現有錯誤,自動寄出警告信給擔當人員
Thumbnail
每日自動檢查資料庫運作所產生的訊息,若發現有錯誤,自動寄出警告信給擔當人員
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News