通過檢查 Health Dashboard ,可以得知 AWS 帳戶特定的故障通知 與 AWS 服務和區域故障報告。您可以注意到如 執行了緊急硬件維護 或 與 RDS相關的服務出現故障,導致無法連接到RDS之類的訊息。
我在一段時間內無法連接到 RDS!
發生意外重啟事件!
在上述情況下,如果檢查故障時間和維護時段是否重疊,會發現維護時段期間執行了小版本自動升級,並且執行了需要資源下線的維護。事情已經完成了。
在管理控制台上,您可以查看過去 24 小時內與 Amazon RDS 相關的以下事件。
・資料庫實例事件
・資料庫參數組事件
・資料庫安全組事件
・資料庫快照事件
・RDS 代理事件
・自定義引擎版本事件
但是,需要使用 AWS CLI 檢查超過24 小時前發生的事件,因此請執行以下 AWS CLI 命令來檢查最近兩週內的事件。
aws rds describe-events --source-identifier --source-type db-instance --duration 20160
通過執行上述命令,您可以查看待排查實例的故障轉移等RDS事件。
如果故障原因仍然未知,請檢查 CloudWatch 指標
CPU Utilization
CPU CreditBalance
Database Connections
FreeableMemory
FreeStorage Space
SwapUsage
網路吞吐量(IN/OUT)和 IOPS(讀/寫請求)指標。
如果其他客戶報告 Aurora 正在進行故障轉移,請檢查 AuroraReplicaLag 指標以查看故障轉移是否是由副本延遲增加引起的。
這是因為對於 Amazon Aurora,如果副本滯後持續超過 100 毫秒,就會被判斷為故障,並會發生故障轉移。(當副本延遲超過 100 毫秒時,它並不總是會進行故障轉移。)
後續調查將使用增強監控、性能洞察和各種日誌進行。
此外,如果AWS基礎設施方面存在故障的可能性,我們可能會要求AWS利用我們的技術支持調查結果進行調查。
增強監控(必須啟用)
使用增強監控監控操作系統指標
Performance Insights(必須啟用)
使用 Amazon RDS 上的 Performance Insights 監控資料庫負載
啟用 Logs
使用Logs進行調查。