更新於 2023/01/21閱讀時間約 1 分鐘

災害評估 - 這個Bug有幾級?

在台灣長大的人 應該都對地震颱風不陌生 地震從無感到強震 颱風從熱帶低氣壓到強颱 根據災害的嚴重程度 中央氣象局會制訂不同的等級
程式的Bug雖然不是天災 但絕對算是一種人禍 所以也會有相對應的級別
那麼Bug如何分級呢? 一般來說,會從P0定義到P5 不過和颱風地震不一樣 數字越小,表示災害越嚴重
P0、P1等級 大概就是系統癱瘓 使用者無法登入 全部站台都受到影響 通常必須在10~30分鐘內修復 有必要的話 還要馬上召開線上會議 讓相關部門主管了解狀況 討論如何解決問題
之前遇過幾次比較嚴重的 一個是被DDos攻擊 網站主頁面無法顯示 另外一次是Google服務掛掉 導致全部用戶都無法登入
還有一個比較扯的是 權限管控沒有設定好 讓工程師誤刪整個雲服務
那時候剛好流行用zoom 當發生這種大問題時 在通訊軟體slack喊一下 所有值班人員馬上出現開會 簡直就像看見佛地魔標記一樣 只差在上線的是工程師 而不是食死人
當問題解決後 還要寫書面報告 詳細列出幾點幾分 發生什麼事情 做了什麼處理 還有相對應的防範措施 避免下一次問題重現
但如果是比較小的問題 如圖片跑掉、少量客戶資料異常等等 就會是P3到P5等級 大概在兩天內修完就可以了
那麼會是誰來定義災害等級呢? 通常會是一線的維運工程師 但如果其他人有疑慮 也可以討論調整等級
制定災害級別 雖然無法預防災害 但能夠對齊所有人對災害的認知 就像大部分的人 知道強颱要來 就不會出去衝浪一樣
祈求風調雨順靠拜拜 安定機器靠乖乖 不求天下無蟲 只求少一些錯 應該是所有工程師心中的夢
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.