ArcGIS Enterprise 系統可靠性指南：高可用性與災難復原策略

2025/10/27 更新2025/10/27 發佈閱讀 17 分鐘

1.0 系統可靠性基礎：為何停機時間與資料遺失至關重要

在現代企業環境中，地理資訊系統 (GIS) 已從單純的地圖繪製工具，演變為支撐關鍵業務決策的核心平台。無論是城市規劃、物流調度，還是緊急應變，GIS 的穩定運行都是業務連續性的基石。

然而，任何 IT 系統都面臨著兩大核心風險：停機時間 (Downtime) 和 資料遺失 (Data Loss)。一次非預期的服務中斷，不僅可能造成營運停擺與財務損失，更可能侵蝕客戶的信任。本文旨在為廣大專業人士（包括非技術背景的管理人員）清晰解析如何應對這些風險，透過建構一個可靠、具備韌性的 ArcGIS Enterprise 環境，確保您的組織能夠行穩健發展。

為了有效管理風險，我們首先需要釐清三個核心概念：備份、高可用性與災難復原。

這三個概念並非相互排斥，而是互補且層層遞進的保護策略。它們在成本、實施複雜性以及提供的保護等級上有所不同，組織需要根據自身需求進行權衡。

要量化這些策略的效益，我們必須理解兩個關鍵指標：

復原時間目標 (Recovery Time Objective, RTO)：代表「我們能多快恢復上線？」這個指標衡量的是從災難發生到系統恢復服務所需的最長時間。RTO 越短，代表業務中斷的時間越少。
復原點目標 (Recovery Point Objective, RPO)：代表「我們最多會損失多少資料？」這個指標衡量的是從災難發生點回溯，可接受的資料遺失量，通常由最後一次成功備份的時間點決定。RPO 越短，代表遺失的資料越少。

追求更高的系統可用性，意味著要投入更高的成本。下表將不同等級的可用性（通常以 "Nines" 表示）轉化為具體的停機時間，幫助您直觀地理解其差異。

引用自 ArcGIS Enterprise: High Availability and Disaster Recovery | 2021 Esri Developer Summit

接下來，我們將深入探討實現 ArcGIS Enterprise 系統可靠性的三種主要方法，解析其運作原理與適用情境。

2.0 ArcGIS Enterprise 可靠性的三大支柱

一個完整的系統可靠性策略是由備份、高可用性及災難復原三大核心支柱共同構成的。每種方法都有其特定的應用場景、優勢與限制。理解它們之間的差異，對於做出符合組織需求的明智架構決策至關重要。

2.1 基礎防線：備份與還原 (Backup and Restore)

備份是所有可靠性策略的基石。它是一種簡單、高效且成本相對較低的保護措施，旨在應對資料損毀、人為誤操作或系統升級失敗等情境。對於 ArcGIS Enterprise，Esri 提供了專門的 WebGIS DR 工具，這是一個強大的指令行工具，用於建立整個 Web GIS 部署的一致性快照。值得注意的是，Esri 持續在改進此工具，例如在 10.9 版本中，針對大型部署的備份時間從超過 43 小時大幅縮短至 3.5 小時以下，凸顯了維持軟體版本更新的重要性(本範例自 ArcGIS Enterprise: High Availability and Disaster Recovery - Esri Videos: GIS, Events, ArcGIS Products & Industries)。

WebGIS DR 工具能夠備份的內容包括：

系統設定：涵蓋 Portal for ArcGIS、ArcGIS Server 及 ArcGIS Data Store 的組態。
發布的服務：所有發布在 ArcGIS Server 上的服務定義。
Portal 內容：使用者、群組、項目（地圖、應用程式、圖層等）。
ArcGIS Data Store 資料：包括關聯式資料儲存庫（如託管圖徵圖層）和場景圖磚快取。

然而，管理者也必須清楚此工具無法備份的項目：

企業級地理資料庫 (EGDB) 或檔案型資料：這些由服務參考的外部資料來源，需要透過資料庫或檔案系統自身的備份機制進行保護。
傳統的伺服器快取圖磚 (Traditional cache tiles)：這些快取需要單獨備份。
時空巨量資料儲存庫 (Spatiotemporal Data Store)。
GeoEvent Server 的服務與組態。

2.2 預防中斷：高可用性 (High Availability)

高可用性 (HA) 的核心理念是「消除單點故障 (No single point of failure)」，其目標是在系統某個元件發生故障時，服務能夠持續不中斷地運行。

HA 的實現方式是透過機器層級的備援 (Machine redundancy)。這意味著系統中的每個關鍵元件（如 Portal、Server、Data Store）都至少有兩台機器在運行。當其中一台機器因硬體故障、網路問題或軟體崩潰而停止服務時，另一台備用機器能立即或在極短時間內無縫接軌，繼續處理使用者請求，從而將停機時間縮短至分鐘甚至秒級。

2.3 應對災難：災難復原 (Disaster Recovery)

災難復原 (DR) 則是應對更大規模、更具毀滅性事件的策略，其重點在於環境層級的備援 (Environment redundancy)。這些事件可能包括整個資料中心因火災、地震、洪水或大規模電力中斷而完全無法運作。

為了應對此類災難，我們引入了地理備援 (Geographic Redundancy) 的概念。這意味著在一個與主資料中心地理位置不同的地方，建立一個完整且獨立的備用資料中心。這個備用中心擁有與主中心完全相同的架構和配置，並透過 WebGIS DR 工具等機制定期同步資料。一旦主中心發生災難，流量可以被切換至備援中心，從而恢復服務。

在了解了這三大支柱的基礎概念後，我們將探討如何在 ArcGIS Enterprise 的具體架構中，一步步實現高可用性。

3.0 建構高可用性 (HA) 架構

實現高可用性並非安裝一個功能或勾選一個選項，而是一套涉及多個元件協同運作的系統性設計。它的目標是確保從使用者請求的入口到後端資料儲存的每一個環節都沒有單點故障。本章節將逐一解析 ArcGIS Enterprise 的核心元件如何進行配置，以共同建構一個強健的高可用性架構。

3.1 流量調度的核心：負載平衡器 (Load Balancer)

負載平衡器是 HA 架構中的「交通警察」，扮演著至關重要的角色。它的主要職責有二：

一是將傳入的網路請求（流量）以智慧化方式分發至後端的多台伺服器，避免任何單一伺服器過載。
二是持續監控後端伺服器的健康狀況，一旦偵測到某台伺服器無回應，便會自動停止向其發送流量，確保使用者請求總是能被健康的伺服器處理。

在 ArcGIS Enterprise 環境中，有兩種主要的負載平衡選項：

3.2 Portal for ArcGIS 的高可用性

Portal for ArcGIS 的高可用性架構是一個精巧的混合模式，在 Web 伺服器層級是主動-主動 (Active-Active)，但在資料庫層級則是主動-被動 (Active-Passive)。

此架構由兩台 Portal 機器組成。在 Web 層級，兩台機器都能從負載平衡器接收流量 (Active-Active)。然而，在後端，只有主節點 (Primary) 負責處理所有寫入操作（如新增使用者、上傳項目）到其內部資料庫。這些變更會即時複製到待命機 (Standby)。當主節點發生故障時，待命機會自動提升為新的主節點，接管所有服務，確保寫入操作的一致性與連續性。

關鍵組件：此架構的基礎是共享內容目錄 (Shared Content Directory)。這是一個位於高可用檔案伺服器上的共享資料夾，兩台 Portal 機器都必須能夠存取，用以存放所有 Portal 項目內容。
健康檢查：Portal 提供了一個 Health Check API 端點，負載平衡器可以定期查詢此 API 來判斷每台機器的健康狀態，並據此決定是否將流量導向該機器。

3.3 ArcGIS Server 的高可用性

與 Portal 不同，ArcGIS Server 的多機站點 (Multi-Machine Site) 架構採用的是純粹的主動-主動 (Active-Active) 模式。

在此架構中，站點內的所有 ArcGIS Server 機器地位平等，沒有主從之分。每一台機器都積極地參與處理傳入的服務請求。負載平衡器會將請求以輪詢 (Round-robin) 或其他演算法分發到所有健康的機器上。如果其中一台機器故障，負載平衡器會將其從可用列表中移除，其餘機器則繼續提供服務，不會造成服務中斷。

關鍵組件：此架構的基礎同樣依賴於共享儲存，即共享的設定儲存庫 (Config-store) 和伺服器目錄，所有站點內的機器都必須能存取這些共享位置。

3.4 ArcGIS Data Store 的高可用性

作為託管服務 (Hosted Services) 的後端儲存，ArcGIS Data Store 同樣支援高可用性配置，以確保資料的安全與服務的連續性。

以最常用的關聯式資料儲存庫為例，其 HA 架構採用主-從 (Primary-Standby) 模式。主資料庫處理所有的讀寫請求，並自動將資料異動複製到待命資料庫。當主資料庫失效時，系統會自動進行容錯移轉 (Failover)，將待命資料庫提升為新的主資料庫，繼續提供服務。

3.5 關鍵相依性與維運考量

要實現完整的端到端高可用性，僅僅配置 ArcGIS 元件是不夠的。所有依賴的基礎設施，包括共享檔案伺服器、網路設備、DNS 服務以及負載平衡器本身，都必須是高可用的。一個建構在非備援檔案伺服器上的高可用 ArcGIS Enterprise 部署，並非真正的高可用；它只是將單點故障轉移到了另一個地方。一位稱職的架構師會評估整個技術堆疊的可靠性，而不僅僅是應用程式元件。

在維運方面，HA 環境中的修補程式更新也需要特別規劃。為了將停機時間降至最低，應遵循特定順序。例如，在更新 Portal 時，應先更新待命機，驗證其健康狀況後，再更新主節點。更新主節點時會觸發一次計畫性的容錯移轉，由已更新的待命機接手，從而實現平滑升級。

儘管高可用性架構能有效防禦資料中心內部的單一元件故障，但它對於整個站點範圍的災難（如火災或洪水）仍然無能為力。為了應對這種終極風險，我們必須將策略提升到下一個層級：地理備援的災難復原。

4.0 實施地理備援的災難復原 (DR) 策略

地理備援是系統可靠性的最高等級保護措施，其設計目標是應對資料中心等級的重大災難，例如自然災害、大規模斷電或區域性網路中斷。這是一種複雜且成本高昂的策略，通常保留給那些業務絕對不能中斷的關鍵系統。本章節將概述使用 WebGIS DR 工具實現此策略的關鍵步驟與核心考量。

實現地理備援的核心流程可概括為以下四個步驟：

複製部署 (Duplicate the deployment)：在一個與主資料中心地理位置相隔甚遠的備援資料中心，建立一個與主資料中心軟硬體配置、網路架構、URL 等完全相同的 ArcGIS Enterprise 環境。
建立快照 (Create snapshots)：定期使用 WebGIS DR 工具在主資料中心建立整個系統的一致性快照（備份）。這個快照包含了 Portal、Server 和 Data Store 的所有內容與設定。
應用快照 (Apply snapshots)：將主中心產生的快照檔案安全地傳輸到備援資料中心，並使用 WebGIS DR 工具將其應用（還原）到備援環境，使其與主中心保持同步。
監控與容錯移轉 (Monitor and Failover)：透過流量管理器 (Traffic Manager) 或全球 DNS 服務，持續監控兩個資料中心的健康狀況。當偵測到主中心發生災難性故障時，自動或手動將所有使用者流量切換至備援資料中心。

資料差異與同步的挑戰

災難發生後的一個關鍵挑戰是資料差異與同步問題。想像一下，當主中心故障，流量被切換到備援中心後，使用者會在備援中心上繼續工作，產生新的資料或修改現有內容。此時，備援中心的資料狀態就領先於已故障的主中心。當主中心修復並重新上線後，如何將這段時間內在備援中心產生的新資料同步回去，成了一個複雜的問題。

使用唯讀模式 (Read-Only Mode) 應對

唯讀模式 (Read-Only Mode) 是解決上述資料同步難題的有效策略。在執行計畫性的容錯移轉（例如，為了進行主中心升級或維護）之前，管理員可以先將主中心的 ArcGIS Enterprise 環境設定為唯讀模式。

啟用唯讀模式後，系統會凍結主中心，限制所有會修改網站資料或設定的操作，但使用者仍然可以正常地與系統互動。舉例來說，使用者依然可以檢視地圖和使用現有的應用程式，但諸如發布新服務、編輯圖徵資料或建立使用者等關鍵的修改行為將被阻止。這確保了在流量切換至備援中心的過程中，主中心不會產生任何新的內容，從而完美地避免了資料差異問題，讓後續的恢復流程變得極為簡潔。

了解了從基礎備份到高可用性，再到最高級別的災難復原策略後，接下來的問題是：您的組織應該如何從中選擇，找到最適合自身需求的平衡點？

5.0 為您的組織選擇合適的策略

系統可靠性並非一個非黑即白的開關 (Switch)，而是一個連續的光譜 (Spectrum)。沒有一種方案能適用於所有情境。組織需要在業務需求的重要性、可接受的停機時間與資料遺失量，以及可投入的預算和技術資源之間，找到一個最佳的平衡點。

成本、能力與停機時間的權衡

選擇合適策略的過程，始於業務層面的對話，而非技術的選擇。您的組織必須明確定義其對業務中斷的容忍度。例如，一個支援緊急應變服務的系統，可能要求 RTO 只有幾分鐘，而 RPO 趨近於零，這足以證明投入災難復原策略的高昂成本是合理的。相對地，一個用於內部長期規劃的系統，或許可以容忍數小時的 RTO，這使得一個穩健的備份與還原計畫成為最具成本效益的解決方案。

在可靠性策略的選擇中，存在一個明顯的權衡關係：隨著您追求更高的可靠性等級（從基礎備份，到高可用性，再到地理備援的災難復原），系統的能力和韌性會顯著提升，可接受的停機時間也從數小時、數天大幅縮短至數分鐘甚至數秒。然而，與此同時，建置和維護的成本與複雜性也隨之急劇增加。

下表對這三種核心策略進行了綜合比較，以幫助您進行決策：

技術架構的選擇固然重要，但它只是實現系統可靠性的一部分。一個成功的策略同樣依賴於完善的管理流程與訓練有素的人員。

6.0 結論：邁向全面的系統可靠性

一個強健、可靠的 ArcGIS Enterprise 環境，並非單一技術的產物，而是透過對備份、高可用性和災難復原這三種策略進行深思熟慮的組合與應用來實現的。從最基礎的定期備份，到消除單點故障的高可用性架構，再到應對終極災難的地理備援，每一層保護都扮演著不可或缺的角色。

然而，我們必須強調，成功的可靠性策略遠不止是硬體和軟體的堆砌。如果沒有完善的流程和訓練有素的團隊，再昂貴的設備也可能在危機來臨時形同虛設。因此，技術的投資必須與對人員與流程 (People and processes) 的投入相匹配。

為了將技術架構轉化為真正的組織韌性，以下關鍵管理實踐至關重要：

明確的 IT 治理 (IT Governance)：建立清晰、文件化的政策與程序。明確定義何謂「災難」、何時觸發容錯移轉、以及各團隊成員在應變計畫中的職責。
定期測試 (Tested properly)：可靠性計畫的價值在於其可執行性。必須定期演練備份還原與容錯移轉流程，模擬真實的故障情境，以驗證計畫的有效性並找出潛在問題。
人員訓練 (Exercised with staff)：確保技術團隊與管理人員都熟悉應變計畫的每個步驟。透過定期的演練和培訓，讓團隊在壓力下也能沉著、高效地執行恢復程序。

歸根結底，投資於系統的可靠性，就是投資於組織的業務連續性與未來成功。一個經過精心設計、嚴格測試並由專業團隊維護的 ArcGIS Enterprise 環境，將是您在日益複雜和充滿不確定性的世界中，最值得信賴的數位資產。

本文使用 Google NotebookLM 整理

留言

留言分享你的想法！

地圖司令部