Amazon CloudWatch 新增 Metrics 可以監控 EBS 運作狀況(實用)

2023/12/25閱讀時間約 2 分鐘


新加入的指標

VolumeStalledIOCheck

此指標是二進位值,將根據 EBS 磁碟區是否可以完成 I/O 操作傳回 0(通過)或 1(失敗)狀態。

可能原因:

  • EBS 磁碟區底層儲存子系統的硬體或軟體問題
  • 實體主機上的硬體問題會影響 EC2 執行個體中的 EBS 磁碟區的可及性
  • 實例和 EBS 磁碟區之間的連線問題

如果VolumeStalledIOCheck指標失敗,您可以等待 AWS 解決問題,也可以採取措施,例如取代受影響的磁碟區或停止並重新啟動該磁碟區所附加的執行個體。在大多數情況下,當該指標失敗時,EBS 將在幾分鐘內自動診斷並恢復您的磁碟區[1]。


StatusCheckFailed_AttachedEBS

該指標監控您的 EBS 磁碟區是否正確連接到 EC2 執行個體並且可以正確執行 I/O 操作

以下是可能導致附加 EBS 狀態檢查失敗的問題範例:

  • EBS 磁碟區底層儲存子系統的硬體或軟體問題
  • 實體主機上影響 EBS 磁碟區的可及性的硬體問題
  • 實例和 EBS 磁碟區之間的連線問題

您可以使用該StatusCheckFailed_AttachedEBS指標來幫助提高工作負載的彈性。


兩者差異

VolumeStalledIOCheck它是AWS/EBS指標

StatusCheckFailed_AttachedEBS它是AWS/EC2指標


如圖可以看到兩個指標都是健康狀態

raw-image


我們可以使用 AWS Fault Injection Service [3] 服務,可以模擬 EBS 磁碟區上的 I/O 停止,來檢查指標是否會改變

raw-image

選擇測試時間,測試費用可以幫您估算

raw-image

可以看到對於EBS 一分鐘的I/O 停止,對於StatusCheckFailed_AttachedEBS 較無反應

raw-image

那停止 6 分鐘,就可以看到兩種指標都會知道目前 EBS 都出狀況,建議兩種都要同時監控

raw-image


目前只有使用 Nitro 系統建置的實例才符合資格。


[1] https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ebs-io-characteristics.html#ebs-io-metrics

[2] https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html#attached-ebs-status-checks

[3] https://aws.amazon.com/tw/fis/

13會員
57內容數
留言0
查看全部
發表第一個留言支持創作者!