Amazon RDS故障時的初步調查(工作日常)

2023/10/01閱讀時間約 2 分鐘

1.檢查AWS Health Dashboard


通過檢查 Health Dashboard ,可以得知 AWS 帳戶特定的故障通知 與 AWS 服務和區域故障報告。您可以注意到如 執行了緊急硬件維護 或 與 RDS相關的服務出現故障,導致無法連接到RDS之類的訊息。

2. 檢查 Maintenance 時間


我在一段時間內無法連接到 RDS!

發生意外重啟事件!

在上述情況下,如果檢查故障時間和維護時段是否重疊,會發現維護時段期間執行了小版本自動升級,並且執行了需要資源下線的維護。事情已經完成了。


3. 檢查 RDS Events


在管理控制台上,您可以查看過去 24 小時內與 Amazon RDS 相關的以下事件。

・資料庫實例事件

・資料庫參數組事件

・資料庫安全組事件

・資料庫快照事件

・RDS 代理事件

・自定義引擎版本事件




但是,需要使用 AWS CLI 檢查超過24 小時前發生的事件,因此請執行以下 AWS CLI 命令來檢查最近兩週內的事件。


aws rds describe-events --source-identifier --source-type db-instance --duration 20160


通過執行上述命令,您可以查看待排查實例的故障轉移等RDS事件。


4. 檢查 CloudWatch 中的每個指標


如果故障原因仍然未知,請檢查 CloudWatch 指標

CPU Utilization

CPU CreditBalance

Database Connections

FreeableMemory

FreeStorage Space

SwapUsage

網路吞吐量(IN/OUT)和 IOPS(讀/寫請求)指標。

如果其他客戶報告 Aurora 正在進行故障轉移,請檢查 AuroraReplicaLag 指標以查看故障轉移是否是由副本延遲增加引起的。

這是因為對於 Amazon Aurora,如果副本滯後持續超過 100 毫秒,就會被判斷為故障,並會發生故障轉移。(當副本延遲超過 100 毫秒時,它並不總是會進行故障轉移。)

5.後續調查


後續調查將使用增強監控、性能洞察和各種日誌進行。

此外,如果AWS基礎設施方面存在故障的可能性,我們可能會要求AWS利用我們的技術支持調查結果進行調查。


增強監控(必須啟用)

使用增強監控監控操作系統指標


Performance Insights(必須啟用)

使用 Amazon RDS 上的 Performance Insights 監控資料庫負載

啟用 Logs

使用Logs進行調查。


13會員
57內容數
留言0
查看全部
發表第一個留言支持創作者!