Amazon RDS故障時的初步調查(工作日常)

西尼亞ming

更新於 2024/09/30發佈於 2023/10/01閱讀時間約 2 分鐘

1.檢查AWS Health Dashboard

通過檢查 Health Dashboard ，可以得知 AWS 帳戶特定的故障通知與 AWS 服務和區域故障報告。您可以注意到如執行了緊急硬件維護或與 RDS相關的服務出現故障，導致無法連接到RDS之類的訊息。

2. 檢查 Maintenance 時間

我在一段時間內無法連接到 RDS！

發生意外重啟事件！

在上述情況下，如果檢查故障時間和維護時段是否重疊，會發現維護時段期間執行了小版本自動升級，並且執行了需要資源下線的維護。事情已經完成了。

3. 檢查 RDS Events

在管理控制台上，您可以查看過去 24 小時內與 Amazon RDS 相關的以下事件。

・資料庫實例事件

・資料庫參數組事件

・資料庫安全組事件

・資料庫快照事件

・RDS 代理事件

・自定義引擎版本事件

但是，需要使用 AWS CLI 檢查超過24 小時前發生的事件，因此請執行以下 AWS CLI 命令來檢查最近兩週內的事件。

aws rds describe-events --source-identifier --source-type db-instance --duration 20160

通過執行上述命令，您可以查看待排查實例的故障轉移等RDS事件。

4. 檢查 CloudWatch 中的每個指標

如果故障原因仍然未知，請檢查 CloudWatch 指標

CPU Utilization

CPU CreditBalance

Database Connections

FreeableMemory

FreeStorage Space

SwapUsage

網路吞吐量（IN/OUT）和 IOPS（讀/寫請求）指標。

如果其他客戶報告 Aurora 正在進行故障轉移，請檢查 AuroraReplicaLag 指標以查看故障轉移是否是由副本延遲增加引起的。

這是因為對於 Amazon Aurora，如果副本滯後持續超過 100 毫秒，就會被判斷為故障，並會發生故障轉移。（當副本延遲超過 100 毫秒時，它並不總是會進行故障轉移。）

5.後續調查

後續調查將使用增強監控、性能洞察和各種日誌進行。

此外，如果AWS基礎設施方面存在故障的可能性，我們可能會要求AWS利用我們的技術支持調查結果進行調查。

增強監控（必須啟用）

使用增強監控監控操作系統指標

Performance Insights（必須啟用）

使用 Amazon RDS 上的 Performance Insights 監控資料庫負載

啟用 Logs

使用Logs進行調查。

#AWS

留言

留言分享你的想法！

西尼亞ming的沙龍

16會員

80內容數

西尼亞ming的沙龍的其他內容

2024/11/05

[GCP] Ops-agent可以監控java的效能?(工作日常)

在ops-agent當中可以安裝 JVM 來收集 Java 參數，該工具主要收集 memory 以及 garbage collection 的參數，其中監控的選項有包含以下： jvm.classes.loaded jvm.gc.collections.count jvm.gc.collec

2024/11/05

[GCP] Ops-agent可以監控java的效能?(工作日常)

2024/11/05

[GCP] 檢查 GCP 登入紀錄(工作日常)

**Google Cloud 操作與 Audit Logs 說明** Google Cloud 作為純雲端服務提供商，所有操作均透過 HTTPS 網頁或 API 呼叫完成，並無「登入專案」的行為紀錄。不過，若使用 Google Workspace 管理使用者身份，則可以透過 Google

2024/11/05

[GCP] 檢查 GCP 登入紀錄(工作日常)

2024/11/05

[GCP] GCS/BigQuery 建議的備份方法？ (工作日常)

使用 Storage Transfer 服務是否能降低成本？ Storage Transfer 的計價方式針對從 Cloud Storage 轉移至 Cloud Storage，除了一般費用外，Storage 移轉服務會使用 Cloud Storage rewrite 作業在 Cloud

2024/11/05

[GCP] GCS/BigQuery 建議的備份方法？ (工作日常)

看更多

你可能也想看

方格子 vocus 官方沙龍

開箱你的美好生活：一起來寫開箱賺獎金！#品牌合作

「欸！這是在哪裡買的？求連結 🥺」誰叫你太有品味，一發就讓大家跟著剁手手？讓你回購再回購的生活好物，是時候該介紹出場了吧！「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩

#蝦皮分潤計畫#開箱#蝦皮

2025/05/12

方格子 vocus 官方沙龍

開箱你的美好生活：一起來寫開箱賺獎金！#品牌合作

#蝦皮分潤計畫#開箱#蝦皮

2025/05/12

數位IC設計第一品牌

[Verilog] 10分鐘看懂verilog的reset

前篇內容提到說,async reset有著打出glitch的風險, 但除了glitch之外, 如果reset deassert的時間點不對的話可是造出大量metastable的data, 直接導致function fail, 至於assert的時間點因為是async reset,所以何時出發

#reset#async#CDC

2024/07/31

數位IC設計第一品牌

[Verilog] 10分鐘看懂verilog的reset

#reset#async#CDC

2024/07/31

數據分析師的真實日常週報

數據分析師的真實工作週報 - 先進的報表、商城報表販賣恐懼、第三方Cookie、營運數據分析、會員成效的看法

Amazon 與 Walmart 提供的後台報表是非常先進的報表，強調在數據中發現洞察並直接給出可行的建議。Google 的第三方 Cookie 保留決定對行銷人員、廣告商及 Martech 工具產生重大影響。Email 成效驗證充滿疑點，應注重「到達率」、「打開率」與「點擊率」。

2024/07/28

數據分析師的真實日常週報

數據分析師的真實工作週報 - 先進的報表、商城報表販賣恐懼、第三方Cookie、營運數據分析、會員成效的看法

2024/07/28

郭蓋特的科技研究所

電腦維修案例紀錄：固態硬碟故障導致電腦連不上網路

這篇文章記錄了一次特殊的電腦維修案例，客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......

#SSD#上網#故障

2024/07/13

郭蓋特的科技研究所

電腦維修案例紀錄：固態硬碟故障導致電腦連不上網路

這篇文章記錄了一次特殊的電腦維修案例，客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......

#SSD#上網#故障

2024/07/13

Arthur的沙龍

找ASUS維修嗎？維修問題整理給你

你遇到家中電腦老化了嗎？如果你有ASUS維修困擾，那麼趕快往下閱讀吧！ 1. 電池老化，無法長時間待機 ASUS筆電的電池屬於消耗品，老化可能是正常耗損所致，也可能因長期插著電源使用導致耗損加快。建議每2年更換一次電池，以保持最佳狀態。 2. 筆電無法開機，指示燈未亮如果電池指示燈未亮，可

2024/06/17

2024/06/17

AMZN 1Q24 財報：Anthropic開始對AWS帶來有意義貢獻，雲端Cost Optimization似乎結束

AMZN 1Q24 繳出亮眼財報，其中 AWS 成長超預期，跟上 Azure、Google Cloud 等出現強勁的 YoY 復甦，這顯示了企業在雲端上的成本優化 (Cost Optimization) 歷經了 2022、2023 這二年之後，已經見到了放鬆的跡象。 AMZN 1Q24 財報表

#AMZN#亞馬遜#財報

2024/05/02

美股 Insight

AMZN 1Q24 財報：Anthropic開始對AWS帶來有意義貢獻，雲端Cost Optimization似乎結束

#AMZN#亞馬遜#財報

2024/05/02

茜崎夢羽的沙龍

臨時停更

由於電腦突然出現故障，導致檔案丟失以及電腦無法正常使用，故今日臨時停更一次，沿至下禮拜五更新

#停更

2024/03/17

茜崎夢羽的沙龍

臨時停更

由於電腦突然出現故障，導致檔案丟失以及電腦無法正常使用，故今日臨時停更一次，沿至下禮拜五更新

#停更

2024/03/17

linct的沙龍

資料庫運作之自動檢查

每日自動檢查資料庫運作所產生的訊息，若發現有錯誤，自動寄出警告信給擔當人員

#ORACLE#windows#SQLPLUS

2024/03/14

linct的沙龍

資料庫運作之自動檢查

每日自動檢查資料庫運作所產生的訊息，若發現有錯誤，自動寄出警告信給擔當人員

#ORACLE#windows#SQLPLUS

2024/03/14

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News