SLA / SLO / SLI:做維運 PM 必懂的三個服務穩定指標

SLA / SLO / SLI:做維運 PM 必懂的三個服務穩定指標

avatar-img
發佈於軟體開發
更新於 發佈於 閱讀時間約 2 分鐘

接續著請 ChatGPT 幫我繼續講解 MIS 相關的概念,這是它幫我選的接下來的議題。

這是你在維運、雲端、資安專案裡一定會碰到的概念,能幫助你理解:

  • 什麼是「服務品質」?
  • 什麼時候該報告系統異常?
  • 如何和工程師、客戶協調「可接受的穩定程度」?

✅ 一句話理解這三個詞:

  • SLA(Service Level Agreement):對「客戶」的服務保證
    • 保證 99.9% 可用性,超過要賠錢(合約)
  • SLO(Service Level Objective):對「內部團隊」的目標
    • 我們團隊內部定的標準,例如「99.95% 可用性」
  • SLI(Service Level Indicator):量測服務狀況的數字
    • 實際可用性、延遲、錯誤率的統計指標

🧠 舉個簡單例子:

假設你是某個線上平台的 PM,和使用者約定 SLA 是「每個月不能有超過 40 分鐘的中斷時間」。

  • SLI:這個月實際的系統可用率是 99.96%,有 17 分鐘中斷。
  • SLO:我們內部要求可用率達 99.95%。
  • SLA:客戶 SLA 是 99.9%,你達到了,無需賠償。
🎯 你可以用這三個數據來跟主管說:「本月服務穩定,SLI 落在 SLO 內,也符合 SLA。」

到底怎麼定 SLA、SLO?

✳️ 建議記住一個邏輯順序:

SLI(實際數據) → SLO(內部目標)→ SLA(對外承諾)

✅ 1. SLI 怎麼來?(實際觀測數據)

  • 來源:監控系統(如 Datadog、Grafana、Cloud Monitoring)
  • 常見指標:
    • 可用率:例如 99.95% uptime
    • 延遲時間:例如 API 平均回應時間小於 200ms
    • 錯誤率:例如 5xx error rate 小於 0.1%

✅ 2. SLO 怎麼定?(內部可以接受的目標)

  • 通常會「高於 SLA 一點」,有彈性空間
  • 目標要具體、可衡量,例如:每個月網站可用率要達 99.95%,每小時 API 失敗率不超過 0.05%」

✅ 3. SLA 怎麼寫?(對客戶/外部的承諾)

  • 通常會保守一點,讓自己不要一出錯就違約
  • 常用 SLA 範例(你常看到這種):
      • 99.9% 可用性(約等於月中斷不超過 43 分鐘)
      • 若未達 SLA,會提供折扣或賠償(例如信用額度)
raw-image

SLI 是實際發生什麼事

SLO 是我們希望怎麼做

SLA 是我們對外怎麼承諾


avatar-img
hello maple
1會員
40內容數
各種工作及生活中的小小紀錄
留言
avatar-img
留言分享你的想法!
hello maple 的其他內容
這篇文章探討了虛擬機和容器的優勢與局限,並探討了在不同需求下如何選擇最適合的技術,幫助企業實現更靈活和高效的 IT 運維。
在現代網路與雲端架構中,負載平衡(Load Balancer)、橫向擴展(Scale Out)、以及 API 溝通機制是不可或缺的基礎。本文帶你快速理解負載平衡如何分散流量、系統如何透過擴展應對成長需求,以及 API 在不同服務間扮演的溝通角色。
本文介紹Terraform、IaC和CI/CD等MIS相關概念,並以淺顯易懂的方式說明其用途和優點,適合產品經理(PM)快速瞭解。
這篇文章探討了虛擬機和容器的優勢與局限,並探討了在不同需求下如何選擇最適合的技術,幫助企業實現更靈活和高效的 IT 運維。
在現代網路與雲端架構中,負載平衡(Load Balancer)、橫向擴展(Scale Out)、以及 API 溝通機制是不可或缺的基礎。本文帶你快速理解負載平衡如何分散流量、系統如何透過擴展應對成長需求,以及 API 在不同服務間扮演的溝通角色。
本文介紹Terraform、IaC和CI/CD等MIS相關概念,並以淺顯易懂的方式說明其用途和優點,適合產品經理(PM)快速瞭解。