在台灣長大的人
應該都對地震颱風不陌生
地震從無感到強震
颱風從熱帶低氣壓到強颱
根據災害的嚴重程度
中央氣象局會制訂不同的等級
程式的Bug雖然不是天災
但絕對算是一種人禍
所以也會有相對應的級別
那麼Bug如何分級呢?
一般來說,會從P0定義到P5
不過和颱風地震不一樣
數字越小,表示災害越嚴重
P0、P1等級
大概就是系統癱瘓
使用者無法登入
全部站台都受到影響
通常必須在10~30分鐘內修復 有必要的話
還要馬上召開線上會議
讓相關部門主管了解狀況
討論如何解決問題
之前遇過幾次比較嚴重的
一個是被DDos攻擊
網站主頁面無法顯示
另外一次是Google服務掛掉
導致全部用戶都無法登入
還有一個比較扯的是
權限管控沒有設定好
讓工程師誤刪整個雲服務
那時候剛好流行用zoom
當發生這種大問題時
在通訊軟體slack喊一下
所有值班人員馬上出現開會
簡直就像看見佛地魔標記一樣
只差在上線的是工程師
而不是食死人
當問題解決後
還要寫書面報告
詳細列出幾點幾分
發生什麼事情
做了什麼處理
還有相對應的防範措施
避免下一次問題重現
但如果是比較小的問題
如圖片跑掉、少量客戶資料異常等等
就會是P3到P5等級
大概在兩天內修完就可以了
那麼會是誰來定義災害等級呢?
通常會是一線的維運工程師
但如果其他人有疑慮
也可以討論調整等級
制定災害級別
雖然無法預防災害
但能夠對齊所有人對災害的認知
就像大部分的人
知道強颱要來
就不會出去衝浪一樣
祈求風調雨順靠拜拜
安定機器靠乖乖
不求天下無蟲
只求少一些錯
應該是所有工程師心中的夢