從數據到行動:打造穩定且可觀察的數位服務

avatar-img
發佈於軟體開發
更新於 發佈於 閱讀時間約 6 分鐘

IT 監控與告警系統(Monitoring & Alerting)

這是現代 IT 系統中不可或缺的一環,尤其是對軟體維運(SRE/DevOps)或雲端架構來說更是核心關鍵。

  • 什麼是監控(Monitoring)?
    是持續蒐集系統運作狀態(如 CPU 使用率、記憶體、網路流量、錯誤率、API 回應時間等),幫助技術團隊了解系統是否健康運作。
  • 什麼是告警(Alerting)?
    是當系統監控到某個指標異常(例如延遲超過閾值或伺服器當機)時,主動通知工程師(例如透過 Email、Slack、Opsgenie、PagerDuty 等),以便及時處理。

常見的工具與概念:

  • Prometheus + Grafana:開源的指標型監控工具組合。
  • ELK Stack(Elasticsearch, Logstash, Kibana):以日誌為主的監控。
  • Cloud 原生工具:如 AWS CloudWatch、Google Cloud Monitoring。
  • AIOps 平台:利用 AI 判斷異常(如 Datadog、New Relic)。


1. Grafana — 可視化儀表板工具

▍用途

Grafana 是一個開源的 資料視覺化工具,可以把各種監控資料(如 CPU 使用率、流量、錯誤率)畫成圖表、儀表板。

▍常見用途

  • 搭配 Prometheus、InfluxDB、CloudWatch 等監控工具使用。
  • 在一個介面上查看整個系統的健康狀況。
  • 幫助技術團隊迅速發現異常(例如突如其來的高流量或系統資源耗盡)。


2. ELK Stack — 日誌型監控分析工具

▍ELK 是什麼?

ELK 是三個工具的組合,主要是處理大量日誌資料:

raw-image

▍常見用途

  • 查看系統錯誤訊息、API 存取紀錄、用戶行為記錄等。
  • 做事件調查(像是安全事件、異常操作、資料遺失等)。

3. Opsgenie — 告警通知與值班排程工具

▍用途

Opsgenie 是一個專門負責「誰該被通知」的工具,常與監控系統搭配使用。

▍常見功能

  • 告警通知(整合 CloudWatch、Prometheus、Datadog 等監控工具)。
  • 值班表管理(例如誰這週 on-call)。
  • 通知路由(不同類型的問題通知不同的人,例如後端錯誤通知後端、資安事件通知資安人員)。
  • 支援多種通知方式(Email、App、簡訊、電話、Slack)。

額外補充:Logstash — 日誌收集與處理工具

▍用途

  • 從不同來源(伺服器、資料庫、應用程式)收集 log。
  • 做格式轉換、過濾,例如把原始 log 中的 IP、錯誤碼挑出來。
  • 傳送到 Elasticsearch、Kafka、Amazon S3、或其他儲存服務。

▍舉例

像是應用程式產生的日誌格式五花八門,Logstash 可以把這些整理成一致的格式,送到 Elasticsearch,方便後續查詢與分析。


4. Datadog — 雲端監控平台

▍定位

Datadog 是一個 雲端原生的一站式監控平台,功能涵蓋:

  • 指標監控(CPU、記憶體、流量等)
  • 日誌管理(Log)
  • 分散追蹤(APM:Application Performance Monitoring)
  • 安全監控(Security Monitoring)
  • 告警管理

▍特色

  • 圖形化介面好用,支援自動儀表板。
  • 很適合多雲、多微服務架構。
  • 整合非常多(AWS、GCP、Kubernetes、Docker、Jenkins…)。

另外在文中提到的 SRE / DevOps

SRE / DevOps — 現代維運的兩大角色

🧠 一句話分別

  • DevOps 是一種文化與方法論,讓「開發」和「維運」能更快、更頻繁、更穩定地交付產品。
  • SRE 是一種實作角色與工程方法,用來實現穩定、高可用、可預測的服務。

🔍 DevOps:文化、流程、工具整合

▍核心理念

  1. 打破開發與維運的隔閡
    傳統上,開發負責寫程式,維運負責上線與處理事故,但雙方常常互相指責。DevOps 強調一起對系統品質負責。
  2. 全面自動化
    包括程式建置、自動測試、自動部署(CI/CD)、基礎建設自動化(IaC)。
  3. 持續交付、快速回饋
    功能一寫完就能快速進入測試→部署→上線→回饋,讓產品更靈活、風險更低。

▍常見工具

raw-image

🛠️ SRE:以工程方式確保系統可靠

▍由 Google 提出,核心目標是:

讓系統穩定、可預測,並能承受改變與錯誤。

▍核心觀念

  1. 定義服務水準
    • SLA(Service Level Agreement):對外承諾的可用性(例如 99.9%)。
    • SLO(Service Level Objective):對內設定的目標(例如 API 每月錯誤率 < 0.1%)。
    • SLI(Service Level Indicator):實際量測的指標(如錯誤率、延遲率)。
  2. 錯誤預算(Error Budget)
    • 如果服務達不到 SLO,可以「暫停部署」,專注修穩定性。
    • 如果有多的錯誤預算,團隊可加快部署新功能。
  3. 自動化維運
    • 自動修復腳本(auto-healing)
    • 自動擴縮(Auto Scaling)
    • 實施容錯架構(如 multi-AZ, failover)

▍SRE 跟 DevOps 有何不同?

raw-image


留言
avatar-img
留言分享你的想法!
avatar-img
hello maple
1會員
62內容數
各種工作及生活中的小小紀錄
hello maple的其他內容
2025/04/29
這篇文章探討了虛擬機和容器的優勢與局限,並探討了在不同需求下如何選擇最適合的技術,幫助企業實現更靈活和高效的 IT 運維。
Thumbnail
2025/04/29
這篇文章探討了虛擬機和容器的優勢與局限,並探討了在不同需求下如何選擇最適合的技術,幫助企業實現更靈活和高效的 IT 運維。
Thumbnail
2025/04/29
在現代網路與雲端架構中,負載平衡(Load Balancer)、橫向擴展(Scale Out)、以及 API 溝通機制是不可或缺的基礎。本文帶你快速理解負載平衡如何分散流量、系統如何透過擴展應對成長需求,以及 API 在不同服務間扮演的溝通角色。
Thumbnail
2025/04/29
在現代網路與雲端架構中,負載平衡(Load Balancer)、橫向擴展(Scale Out)、以及 API 溝通機制是不可或缺的基礎。本文帶你快速理解負載平衡如何分散流量、系統如何透過擴展應對成長需求,以及 API 在不同服務間扮演的溝通角色。
Thumbnail
2025/04/23
本文介紹Terraform、IaC和CI/CD等MIS相關概念,並以淺顯易懂的方式說明其用途和優點,適合產品經理(PM)快速瞭解。
Thumbnail
2025/04/23
本文介紹Terraform、IaC和CI/CD等MIS相關概念,並以淺顯易懂的方式說明其用途和優點,適合產品經理(PM)快速瞭解。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
隨著企業在數位轉型過程中,愈來愈依賴多雲端架構,對雲端安全性和合規性的需求變得前所未有的重要。 雲原生應用程式保護平台(CNAPP)提供了一套全面的解決方案,讓企業能夠有效地管理多雲端環境中的安全性和合規性。
Thumbnail
隨著企業在數位轉型過程中,愈來愈依賴多雲端架構,對雲端安全性和合規性的需求變得前所未有的重要。 雲原生應用程式保護平台(CNAPP)提供了一套全面的解決方案,讓企業能夠有效地管理多雲端環境中的安全性和合規性。
Thumbnail
在行動裝置安全日益嚴峻的環境下,保護手機資料至關重要。使用者除了養成良好的使用習慣之外,也需要定期更新手機OS系統來提升資料安全防護力,而企業端也可以透過APP加殼加密的方式,讓APP達到更高水平的防護。
Thumbnail
在行動裝置安全日益嚴峻的環境下,保護手機資料至關重要。使用者除了養成良好的使用習慣之外,也需要定期更新手機OS系統來提升資料安全防護力,而企業端也可以透過APP加殼加密的方式,讓APP達到更高水平的防護。
Thumbnail
本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化,包括新增指令、讀取變數、提高可讀性和可維護性。
Thumbnail
本文介紹如何對 Telegram 憑證監控機器人的代碼進行優化,包括新增指令、讀取變數、提高可讀性和可維護性。
Thumbnail
👨‍💻簡介 最近因為憑證越來越多,需要監控什麼時候到期,當到期時發送到期通知,因此撰寫一個簡單的小程式來完成。 這次使用Python和Telegram Bot來監控SSL證書的到期時間並發送通知。並使用GCP工具,如CloudFunction和CloudScheduler做部署平台。
Thumbnail
👨‍💻簡介 最近因為憑證越來越多,需要監控什麼時候到期,當到期時發送到期通知,因此撰寫一個簡單的小程式來完成。 這次使用Python和Telegram Bot來監控SSL證書的到期時間並發送通知。並使用GCP工具,如CloudFunction和CloudScheduler做部署平台。
Thumbnail
每日自動檢查資料庫運作所產生的訊息,若發現有錯誤,自動寄出警告信給擔當人員
Thumbnail
每日自動檢查資料庫運作所產生的訊息,若發現有錯誤,自動寄出警告信給擔當人員
Thumbnail
利用總機每日外線通話紀錄所產出之紀錄檔案,一筆一筆抓出,並加以判斷是否異常,若有意常發生,將擷取該筆異常資料明細出力之,並email給相關管理者
Thumbnail
利用總機每日外線通話紀錄所產出之紀錄檔案,一筆一筆抓出,並加以判斷是否異常,若有意常發生,將擷取該筆異常資料明細出力之,並email給相關管理者
Thumbnail
隨着網絡攻擊和資料外洩的種類越來越多,防御方案的部署也要與時並進。近年,很多企業開始留意和測試部署使用者和實體行為分析(UEBA)的可行性。 在資訊保安工作上,內部人員被駭或者內部人員出現錯誤的行為導致企業暴露於風險之中......
Thumbnail
隨着網絡攻擊和資料外洩的種類越來越多,防御方案的部署也要與時並進。近年,很多企業開始留意和測試部署使用者和實體行為分析(UEBA)的可行性。 在資訊保安工作上,內部人員被駭或者內部人員出現錯誤的行為導致企業暴露於風險之中......
Thumbnail
大數據時代下,Log的多元應用至關重要。Log生成龐大,格式各異,特別金融業需合規。探討Log廣泛應用、資訊安全、IT管理和商業決策。建立Log管理系統核心深入法規,強化IT治理、權限控管。一站式Log管理平台,確保資訊安全合規。
Thumbnail
大數據時代下,Log的多元應用至關重要。Log生成龐大,格式各異,特別金融業需合規。探討Log廣泛應用、資訊安全、IT管理和商業決策。建立Log管理系統核心深入法規,強化IT治理、權限控管。一站式Log管理平台,確保資訊安全合規。
Thumbnail
談了許多網路安全的議題,提醒民眾要注意哪些事情,建構哪些網路安全思維,讓我們可以降低踏入詐騙陷阱的風險。但除了民眾本身要不斷學習、提升防詐意識外,是不是還有其他方面的作法呢? 本文就來聊聊在企業端可以做些什麼。 要打造一個密不可破的防護網,企業端就不能夠缺席。 舉幾個例子讓大家知道。
Thumbnail
談了許多網路安全的議題,提醒民眾要注意哪些事情,建構哪些網路安全思維,讓我們可以降低踏入詐騙陷阱的風險。但除了民眾本身要不斷學習、提升防詐意識外,是不是還有其他方面的作法呢? 本文就來聊聊在企業端可以做些什麼。 要打造一個密不可破的防護網,企業端就不能夠缺席。 舉幾個例子讓大家知道。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News