Amazon RDS故障時的初步調查(工作日常)

閱讀時間約 2 分鐘

1.檢查AWS Health Dashboard


通過檢查 Health Dashboard ,可以得知 AWS 帳戶特定的故障通知 與 AWS 服務和區域故障報告。您可以注意到如 執行了緊急硬件維護 或 與 RDS相關的服務出現故障,導致無法連接到RDS之類的訊息。

2. 檢查 Maintenance 時間


我在一段時間內無法連接到 RDS!

發生意外重啟事件!

在上述情況下,如果檢查故障時間和維護時段是否重疊,會發現維護時段期間執行了小版本自動升級,並且執行了需要資源下線的維護。事情已經完成了。


3. 檢查 RDS Events


在管理控制台上,您可以查看過去 24 小時內與 Amazon RDS 相關的以下事件。

・資料庫實例事件

・資料庫參數組事件

・資料庫安全組事件

・資料庫快照事件

・RDS 代理事件

・自定義引擎版本事件




但是,需要使用 AWS CLI 檢查超過24 小時前發生的事件,因此請執行以下 AWS CLI 命令來檢查最近兩週內的事件。


aws rds describe-events --source-identifier --source-type db-instance --duration 20160


通過執行上述命令,您可以查看待排查實例的故障轉移等RDS事件。


4. 檢查 CloudWatch 中的每個指標


如果故障原因仍然未知,請檢查 CloudWatch 指標

CPU Utilization

CPU CreditBalance

Database Connections

FreeableMemory

FreeStorage Space

SwapUsage

網路吞吐量(IN/OUT)和 IOPS(讀/寫請求)指標。

如果其他客戶報告 Aurora 正在進行故障轉移,請檢查 AuroraReplicaLag 指標以查看故障轉移是否是由副本延遲增加引起的。

這是因為對於 Amazon Aurora,如果副本滯後持續超過 100 毫秒,就會被判斷為故障,並會發生故障轉移。(當副本延遲超過 100 毫秒時,它並不總是會進行故障轉移。)

5.後續調查


後續調查將使用增強監控、性能洞察和各種日誌進行。

此外,如果AWS基礎設施方面存在故障的可能性,我們可能會要求AWS利用我們的技術支持調查結果進行調查。


增強監控(必須啟用)

使用增強監控監控操作系統指標


Performance Insights(必須啟用)

使用 Amazon RDS 上的 Performance Insights 監控資料庫負載

啟用 Logs

使用Logs進行調查。


avatar-img
16會員
80內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
西尼亞ming的沙龍 的其他內容
CloudFront除錯相關 確認問題資訊 我們了解您遇到了網站異常的問題,麻煩您協助我們提供以下資訊,以便我們快速排解您的問題,感謝: 請問您發生異常的 CloudFront Distribution 是哪一個 請問現在還會有此異常狀況嗎 您最初發生異常的時間點大約是何時 請問您這種現
有這一篇原因是工作上,建立 OU 時,會自動新增額外的 FullAWSAccess 規則,但原本就會有預設Root OU繼承的FullAWSAccess,等於會有兩組一樣的規則,故所以詢問了AWS Support。 先謝謝 AWS 技術支援工程師 George 細心說明~ SCP很重要的
可以分析源代碼並檢查在遷移到 AWS Graviton 時需要更改的過時運行library 優化 aws 成本的方法之一是遷移到並採用具有高性價比的AWS Graviton 推薦使用AWS Graviton,從可持續性的角度來看,它有很好的表現 但有需要注意的地方: 不適用於所有操作系統和實
AWS AMI Oracle Linux 7 包成 AMI 後,使用 AMI 啟動新 EC2 會遇到 Instance status checks fail 的問題 查看 system log 看到 EC2 開機時沒有抓到 eth0 ,導致 Instance status checks fai
Continue from here Prerequisites Create an IAM role with access to Bedrock Create an "IAM Role" that defines the permissions needed to call Bed
In the previous post, I tried it immediately from the Bedrock console. This time, I tried to use Bedrock from the programme, not from the console.
CloudFront除錯相關 確認問題資訊 我們了解您遇到了網站異常的問題,麻煩您協助我們提供以下資訊,以便我們快速排解您的問題,感謝: 請問您發生異常的 CloudFront Distribution 是哪一個 請問現在還會有此異常狀況嗎 您最初發生異常的時間點大約是何時 請問您這種現
有這一篇原因是工作上,建立 OU 時,會自動新增額外的 FullAWSAccess 規則,但原本就會有預設Root OU繼承的FullAWSAccess,等於會有兩組一樣的規則,故所以詢問了AWS Support。 先謝謝 AWS 技術支援工程師 George 細心說明~ SCP很重要的
可以分析源代碼並檢查在遷移到 AWS Graviton 時需要更改的過時運行library 優化 aws 成本的方法之一是遷移到並採用具有高性價比的AWS Graviton 推薦使用AWS Graviton,從可持續性的角度來看,它有很好的表現 但有需要注意的地方: 不適用於所有操作系統和實
AWS AMI Oracle Linux 7 包成 AMI 後,使用 AMI 啟動新 EC2 會遇到 Instance status checks fail 的問題 查看 system log 看到 EC2 開機時沒有抓到 eth0 ,導致 Instance status checks fai
Continue from here Prerequisites Create an IAM role with access to Bedrock Create an "IAM Role" that defines the permissions needed to call Bed
In the previous post, I tried it immediately from the Bedrock console. This time, I tried to use Bedrock from the programme, not from the console.
你可能也想看
Google News 追蹤
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
前篇內容提到說,async reset有著打出glitch的風險, 但除了glitch之外, 如果reset deassert的時間點不對的話可是造出大量metastable的data, 直接導致function fail, 至於assert的時間點因為是async reset,所以何時出發
Thumbnail
Amazon 與 Walmart 提供的後台報表是非常先進的報表,強調在數據中發現洞察並直接給出可行的建議。Google 的第三方 Cookie 保留決定對行銷人員、廣告商及 Martech 工具產生重大影響。Email 成效驗證充滿疑點,應注重「到達率」、「打開率」與「點擊率」。
Thumbnail
這篇文章記錄了一次特殊的電腦維修案例,客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......
Thumbnail
你遇到家中電腦老化了嗎?如果你有ASUS維修困擾,那麼趕快往下閱讀吧! 1. 電池老化,無法長時間待機 ASUS筆電的電池屬於消耗品,老化可能是正常耗損所致,也可能因長期插著電源使用導致耗損加快。建議每2年更換一次電池,以保持最佳狀態。 2. 筆電無法開機,指示燈未亮 如果電池指示燈未亮,可
Thumbnail
AMZN 1Q24 繳出亮眼財報,其中 AWS 成長超預期,跟上 Azure、Google Cloud 等出現強勁的 YoY 復甦,這顯示了企業在雲端上的成本優化 (Cost Optimization) 歷經了 2022、2023 這二年之後,已經見到了放鬆的跡象。 AMZN 1Q24 財報表
Thumbnail
由於電腦突然出現故障,導致檔案丟失以及電腦無法正常使用,故今日臨時停更一次,沿至下禮拜五更新
Thumbnail
每日自動檢查資料庫運作所產生的訊息,若發現有錯誤,自動寄出警告信給擔當人員
Thumbnail
利用總機每日外線通話紀錄所產出之紀錄檔案,一筆一筆抓出,並加以判斷是否異常,若有意常發生,將擷取該筆異常資料明細出力之,並email給相關管理者
Thumbnail
資料庫之備份工作大都是自動執行,但是執行結果是否成功,需要安排人員去檢查,有時疏忽忘記確認作業,致備份工作失敗仍不知道,等到有一天需要回復舊有資料的場合時,才發現找不到過去某段期間的備份資料,造成無法彌補之後果。   2.    改善: 2.1 設計一執行檔,功能為打開備
Thumbnail
Q:ASUS筆電維修多久? ASUS筆電維修時間範圍可從一至三小時不等,具體取決於筆電的損壞程度。如需了解更多關於維修費用或其他詳情,歡迎聯繫台北黃同學ASUS筆電維修服務中心。 Q:筆電經常自動關機應該怎麼辦? 如果筆電因電池耗盡而自動關機,只需充電即可。但如果頻繁出現自動關機問題,建議送
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
前篇內容提到說,async reset有著打出glitch的風險, 但除了glitch之外, 如果reset deassert的時間點不對的話可是造出大量metastable的data, 直接導致function fail, 至於assert的時間點因為是async reset,所以何時出發
Thumbnail
Amazon 與 Walmart 提供的後台報表是非常先進的報表,強調在數據中發現洞察並直接給出可行的建議。Google 的第三方 Cookie 保留決定對行銷人員、廣告商及 Martech 工具產生重大影響。Email 成效驗證充滿疑點,應注重「到達率」、「打開率」與「點擊率」。
Thumbnail
這篇文章記錄了一次特殊的電腦維修案例,客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......
Thumbnail
你遇到家中電腦老化了嗎?如果你有ASUS維修困擾,那麼趕快往下閱讀吧! 1. 電池老化,無法長時間待機 ASUS筆電的電池屬於消耗品,老化可能是正常耗損所致,也可能因長期插著電源使用導致耗損加快。建議每2年更換一次電池,以保持最佳狀態。 2. 筆電無法開機,指示燈未亮 如果電池指示燈未亮,可
Thumbnail
AMZN 1Q24 繳出亮眼財報,其中 AWS 成長超預期,跟上 Azure、Google Cloud 等出現強勁的 YoY 復甦,這顯示了企業在雲端上的成本優化 (Cost Optimization) 歷經了 2022、2023 這二年之後,已經見到了放鬆的跡象。 AMZN 1Q24 財報表
Thumbnail
由於電腦突然出現故障,導致檔案丟失以及電腦無法正常使用,故今日臨時停更一次,沿至下禮拜五更新
Thumbnail
每日自動檢查資料庫運作所產生的訊息,若發現有錯誤,自動寄出警告信給擔當人員
Thumbnail
利用總機每日外線通話紀錄所產出之紀錄檔案,一筆一筆抓出,並加以判斷是否異常,若有意常發生,將擷取該筆異常資料明細出力之,並email給相關管理者
Thumbnail
資料庫之備份工作大都是自動執行,但是執行結果是否成功,需要安排人員去檢查,有時疏忽忘記確認作業,致備份工作失敗仍不知道,等到有一天需要回復舊有資料的場合時,才發現找不到過去某段期間的備份資料,造成無法彌補之後果。   2.    改善: 2.1 設計一執行檔,功能為打開備
Thumbnail
Q:ASUS筆電維修多久? ASUS筆電維修時間範圍可從一至三小時不等,具體取決於筆電的損壞程度。如需了解更多關於維修費用或其他詳情,歡迎聯繫台北黃同學ASUS筆電維修服務中心。 Q:筆電經常自動關機應該怎麼辦? 如果筆電因電池耗盡而自動關機,只需充電即可。但如果頻繁出現自動關機問題,建議送