接續著請 ChatGPT 幫我繼續講解 MIS 相關的概念,這是它幫我選的接下來的議題。
這是你在維運、雲端、資安專案裡一定會碰到的概念,能幫助你理解:- 什麼是「服務品質」?
- 什麼時候該報告系統異常?
- 如何和工程師、客戶協調「可接受的穩定程度」?
✅ 一句話理解這三個詞:
- SLA(Service Level Agreement):對「客戶」的服務保證
- SLO(Service Level Objective):對「內部團隊」的目標
- 我們團隊內部定的標準,例如「99.95% 可用性」
- SLI(Service Level Indicator):量測服務狀況的數字
🧠 舉個簡單例子:
假設你是某個線上平台的 PM,和使用者約定 SLA 是「每個月不能有超過 40 分鐘的中斷時間」。- SLI:這個月實際的系統可用率是 99.96%,有 17 分鐘中斷。
- SLO:我們內部要求可用率達 99.95%。
- SLA:客戶 SLA 是 99.9%,你達到了,無需賠償。
🎯 你可以用這三個數據來跟主管說:「本月服務穩定,SLI 落在 SLO 內,也符合 SLA。」
到底怎麼定 SLA、SLO?
✳️ 建議記住一個邏輯順序:
SLI(實際數據) → SLO(內部目標)→ SLA(對外承諾)
✅ 1. SLI 怎麼來?(實際觀測數據)
- 來源:監控系統(如 Datadog、Grafana、Cloud Monitoring)
- 常見指標:
- 可用率:例如 99.95% uptime
- 延遲時間:例如 API 平均回應時間小於 200ms
- 錯誤率:例如 5xx error rate 小於 0.1%
✅ 2. SLO 怎麼定?(內部可以接受的目標)
- 通常會「高於 SLA 一點」,有彈性空間
- 目標要具體、可衡量,例如:每個月網站可用率要達 99.95%,每小時 API 失敗率不超過 0.05%」
✅ 3. SLA 怎麼寫?(對客戶/外部的承諾)
- 通常會保守一點,讓自己不要一出錯就違約
- 常用 SLA 範例(你常看到這種):
- 99.9% 可用性(約等於月中斷不超過 43 分鐘)
- 若未達 SLA,會提供折扣或賠償(例如信用額度)
✅ SLI 是實際發生什麼事
✅ SLO 是我們希望怎麼做
✅ SLA 是我們對外怎麼承諾