從備份到營運,都別讓「單點失誤」釀成企業災難/傅瑞德

更新於 發佈於 閱讀時間約 7 分鐘

日前公共電視台的影片檔案在交由外部廠商備份時,出現了數十萬筆資料完全消失的嚴重錯誤。無論是備份的技術問題、或是人為操作失誤,這個現象都凸顯了「災難性單點失誤」在公視流程中的存在。這種失誤不僅會出現在備份時,也會在人事、財務、管理上發生;於是本文就以備份為例,來討論一下這個問題。

財團法人公共電視新聞「片庫」驚傳重大災情,公視新聞部、客家電視台及台語台,近5年約42萬筆新聞資料畫面,竟遭外包資訊公司人員全數刪除,其中包括許多具歷史意義的珍貴影像,未來要剪輯相關畫面只能花公帑向華視購買。離譜的是,去年6月公視才遭駭客入侵,為防再遭駭客入侵,才找來專業資訊公司備份片庫等資料,沒想到竟出現如此低級錯誤。本刊調查,公視董事會已要求相關單位在24日前提出調查報告,並委託律師向廠商求償。

──鏡新聞〈公視認片庫遭全刪 強調:正研擬提告求償
以我當過業主、也當過外包廠商的經驗,把唯一一份資料交給外包廠商去備份,是最容易出錯的事情之一。
其實不只是資料,企業中包括營運、人事、資源管理、工作程序等等,都必須遵循一個最高原則,就是:
絕對要避免讓「災難性的單點失誤」出現。
由於公視事件的詳細內情尚不清楚,所以這邊只是將它當作個引子,來討論一下「單點失誤」的問題。
而本文所說的「備份」原則,如前面所提過的,雖然字面上談的是資料,但也適用於人事、財務、流程等等,請讀者自行推論聯想。

備份的原則

一般在談備份的時候,觀念上是從A複製出一份B,就算是備份了。在確保A、B兩份在符合以下標準:
  • 備份作業成功、內容完整;
  • A、B內容完全相同(行話叫做「mirrored」);
  • A、B內容可以各自獨立開啟;
……的前提下,就算是完整的備份作業(這些前提適用於以下所有敘述,不再重複)。
或許「完全相同」、「可各自開啟」看起來像是廢話;但在人類歷史上,備份完A、B內容不太一樣或有缺損,或是A打得開B打不開、甚至兩個都無法打開(例如RAID 1嚴重損毀)的案例都發生過太多,所以千萬不要覺得不可能。
以個人的非關鍵資料而言,或許從A到B的備份就夠用了;但是對於多人、多部門的企業而言,就必須有妥善的備份策略,才能避免如公視(和其他許多沒有上新聞的企業)這樣的慘劇發生。

一切都要「分散」

理想的備份策略,不只要異地、要多份、還要分時,部門在交出一份拷貝之前自己也要先備份、而且不能在同一時間時備份在同一個地方。
異地、多份的觀念比較常聽說,「分時」則比較少人談;簡單的說,就是各部門不要在同一時間進行備份作業,以免例如公司大樓停電,導致同時進行的作業全部失敗。
總之,就是必須假設每一個程序都會出問題(這很正常,誰來做都一樣),但盡量將每一個可能出問題的環節錯開,將「單點失誤」導致全毀的機率降到最低。
以全公司的檔案備份而言,理想狀況下的基本策略應該是如下圖所示:
  • 各部門自己先將資料從A拷備份成B拷;
  • 交出B拷給中央MIS彙整成C拷、並備份成D拷;
  • MIS將D拷交給外部廠商;
  • 外部廠商將D拷做成E拷,再分散成異地或重複備份(行話叫做「redundant」,也有翻譯成「冗餘」的,但我自己不喜歡這個翻法)的F、G、H拷。
在這個圖中,最容易出問題的有兩個地方:
  1. 路徑重疊度越高的(例如前面提過的「同時停電」),所以要盡量錯開;
  2. 只有單一路徑,所以最容易出現「單點失誤」的;如圖中間的部分,所以必須額外加上重複備份的安全措施。
當然在中間的單一路徑部分,也可能在「安全措施」的單線處理中出錯,但至少C、D、E同時全部損毀的機率很低;而且萬一真的發生,也還有A、B階段的資料可以支援。
回過頭來看,即使在A拷階段就出錯,最糟也就是損失單一部門的資料而已,不會影響到其他部門。

人的問題

不過除非公司中央的MIS有嚴格要求並執行,實務上會完整做到上述程序的公司很少;多半會省略其中一些步驟,甚至直接從A→C→E,沒有任何內部先備份,頂多MIS自己備個B拷留底,就交給廠商處理了。
而今天看到的公視新聞資料損毀情形,如果確定是「全毀無備份」、並且從這個狀況倒推,就是部門也懶得做備份、公司MIS也懶得留底,將一切回復到最原始的「A→B」做法;然後就在過程中發生最違反資訊安全原則、最致命、損失最大、而且最容易在不該發生的時候發生的「災難性單點失誤」。
這是十分常見的「人因問題」,我自己也在個人資料上犯過這種錯,所以十分明白這種「懶得做」、「沒碰沒責任」、「沒那麼倒楣」、「給廠商做就好」的心態;但如果MIS部分經過妥善的策略規劃,這些程序都可以全自動進行(排除「懶」和「部門責任」因素)、也多用不了幾(十)顆硬碟,比起出狀況後的處理善後成本,實在便宜太多了。

設備的問題

新聞資料中沒有明說廠商是用什麼方式備份,有其他報導指出廠商是用NAS網路磁碟機;但因為還無法確認,所以就從與事件無關的角度來談一下設備的事情。
我自己曾經是NAS的愛用者,但後來連續發生兩次主機板損毀、陣列重建失敗(不算是單點失誤,只是運氣很差),導致兩個備份全毀(幸好都已經先另外備份到雲端)之後,我對於NAS這種線上(不是網路的線上)備份機制就不再那麼信任了。
現在則是改用雙重雲端備份、以及「定時備份到外接硬碟A,再設定程序自動將A備份到硬碟B」;如同前面所說的原則,A和B兩者都不是陣列,內容相同,而且可以獨立讀取)。
在正常的備份作業中,原始資料和備份資料同時完全損毀的機率不高,但確實會發生(而且如前述就發生在我身上);但除非是外部原因(如地震導致設備實體損毀、或是停電),多數的作業方式都只會造成備份資料因不完整而損壞,而不會損及原始資料。
依據我自己的經驗,最容易發生的設備配置就是磁碟陣列(RAID);而矛盾的是,雖然許多種類的陣列設計都是以資料完整為目的,但在發生實體(如主機板)損毀之類的狀況時,往往分散儲存、甚至加密處理的陣列資料也是最難回復的。
以彙整資料的「線下」安全性備份(如上圖中的D和E步驟)而言,我認為反而「老式」的磁帶機、硬碟、或是RAID 1陣列還是比較安全的。
至於廠商,或許就用相對便宜的方式來處理(第一道備份千萬不要直接進NAS啊),覺得「應該不會那麼衰」,結果就是這麼衰。

結語

雖說不同的備份裝置有不同的特性,不同的資料型態、存取時間需求、甚至各家MIS主管都有自己的偏好,所以本文所提到的個人觀念(例如「不要用NAS做備份」)不一定大家都同意,每個人選擇的裝置、設計的程序也都可能有所不同。
但總而言之,如同一開始時提過的,資料備份也好、人事佈局也好、投資策略也好,任何企業決策一樣,避免風險最好的方式之一,就是透過機制的設計和資源(設備、人員、外部廠商等等)的配置運用,在整個流程中盡可能消除「災難性單點失誤」的可能性。
此外,雖然「消除單點失誤」屬於預防性的設計,但如果在數位轉型的過程中就已經內化成體系的一部分,就會像是免疫系統一樣,有助於資訊體系的健全、流程的順暢、以及資訊的安全與完整性。

相信我,相較於出狀況後才彌補、或是事後才恍然大悟趕快建立流程,預防的成本會低很多很多。
為什麼會看到廣告
avatar-img
1.4K會員
2.0K內容數
為您送上頂尖作者的最新管理與科技產業思維。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
為了減輕櫃台店員的負擔、也為了試驗一下他們的介面流程,我在麥當勞吃晚餐時用大螢幕自動點餐機點了晚餐;老實說體驗並不是很好,但從它的介面設計、以及商品的排列方式來看,仍然可以看出他們的設計思維、以及可能的問題所在。
有學者認為,人類在21世紀末會被少數的超級人類控制,變成了低等生物;要避免這個結果,人類必須更加「創新」、有更多的「創業」,讓科技發展和政府體制都更民主化和自由化。因此,創新和創業是人類社會維持優勢的必要途徑。
有些時候,未來科技的發展方向是很明確的;但在進入2022年不久的現在,有些價值可能高達幾兆美元的商機,花落誰家都還難有定論。這些就是本文要討論的題目:加密貨幣、汽車、時尚,還有其他。
有些時候,未來科技的發展方向是很明確的;但在進入2022年不久的現在,有些價值可能高達幾兆美元的商機,花落誰家都還難有定論。這些就是本文要討論的題目:加密貨幣、汽車、時尚,還有其他。
企業的營業秘密不僅與產品、技術、核心競爭力息息相關,在某些關鍵層面甚至是國家安全問題。近年來,有許多工程師或高階主管在商業和薪資競爭之下「帶槍投靠」對岸企業;雖然或許得到了一時的高薪,但也可能在新的法律之下為自己帶來無窮後患,不可不慎。
在職場上,每個人對「主導」和「負責」都有自己的想法;有人喜歡領導、但不愛負責,有人願意奉獻、但沒有權力,也有人兩者都不喜歡。但這樣的選擇將會造就你的定位、你的能力、以及未來的表現和發展。那麼,你的選擇又是什麼?
為了減輕櫃台店員的負擔、也為了試驗一下他們的介面流程,我在麥當勞吃晚餐時用大螢幕自動點餐機點了晚餐;老實說體驗並不是很好,但從它的介面設計、以及商品的排列方式來看,仍然可以看出他們的設計思維、以及可能的問題所在。
有學者認為,人類在21世紀末會被少數的超級人類控制,變成了低等生物;要避免這個結果,人類必須更加「創新」、有更多的「創業」,讓科技發展和政府體制都更民主化和自由化。因此,創新和創業是人類社會維持優勢的必要途徑。
有些時候,未來科技的發展方向是很明確的;但在進入2022年不久的現在,有些價值可能高達幾兆美元的商機,花落誰家都還難有定論。這些就是本文要討論的題目:加密貨幣、汽車、時尚,還有其他。
有些時候,未來科技的發展方向是很明確的;但在進入2022年不久的現在,有些價值可能高達幾兆美元的商機,花落誰家都還難有定論。這些就是本文要討論的題目:加密貨幣、汽車、時尚,還有其他。
企業的營業秘密不僅與產品、技術、核心競爭力息息相關,在某些關鍵層面甚至是國家安全問題。近年來,有許多工程師或高階主管在商業和薪資競爭之下「帶槍投靠」對岸企業;雖然或許得到了一時的高薪,但也可能在新的法律之下為自己帶來無窮後患,不可不慎。
在職場上,每個人對「主導」和「負責」都有自己的想法;有人喜歡領導、但不愛負責,有人願意奉獻、但沒有權力,也有人兩者都不喜歡。但這樣的選擇將會造就你的定位、你的能力、以及未來的表現和發展。那麼,你的選擇又是什麼?
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
近期在網路上看見兩起道歉事件:十盛奶茶風波與異色檔案盜用公視影片風波。雖說是都是道歉影片,然而我認為異色檔案的道歉影片堪稱教科書等級。 因此,本文想與各位分享真誠道歉,你該知道的3件事。畢竟,我們人都一定會有犯錯的時刻,但如何透過道歉來挽回,甚至建立新的人際關係,則是一件重要的人際關係藝術。
Thumbnail
上一篇文章聊到公司中明星人才不遵守制度引發的問題,在這篇文章中,我想分享一些我在管理上犯過的錯誤,希望能為大家提供一些啟示,避免重蹈我的覆轍。 如果你有任何想法,也歡迎和我分享! 1.同事私接外包,沒有證據該怎麼辦呢? 你遇過同事在公司私接外包的情況嗎? 若沒證據,你會怎麼處理呢
Thumbnail
如果遇到有人要你刪影片時,請留意其理由的正當性。 有時是避免重要細節被發現,有時是避免混入的破壞份子被識別,有時是要避免可以跟謊言對抗的真相被看到,有時是打擊熱門影片達到輿論影響力的限縮。 最常用的第一個錯誤理由是,違法行為會被警察發現。事實上(幾乎)所有直播都會被警察、中共、好事者備份。
服務建議書的格式和排版瑕疵, 在評審委員觀點或許不是重大缺失, 但在非專業人士的觀感上, 卻容易變成嚴重的放大缺失   服務建議書雖然不是正式報告或出版品, 仍需接受評審委員審視, 除了盡量避免低級錯誤外, 在排版上,也應追求整齊及美觀   為何會有低級錯誤及排版缺陷?  
Thumbnail
本文介紹了在K8S Cluster出現問題時,透過ETCD的備份來還原Cluster的方法。包括ETCD的資料類型、備份、還原以及相關建議,並提出了自動進行ETCD備份作業和備份存放位置的重要性。
砍掉重練…。不知道什麼時候起這四個字成了資訊人員的工作原則之一,但是,只要系統修改的時間超出一定範圍,砍掉重練的時間成本絕對低於原系統修改。 可是在基礎建設的部份呢? 例如伺服器、網路設備方面呢? 其實,砍掉重練也是常有的事,尤其虛擬化後,Server要砍掉重練更是輕而舉。
Thumbnail
資料庫之備份工作大都是自動執行,但是執行結果是否成功,需要安排人員去檢查,有時疏忽忘記確認作業,致備份工作失敗仍不知道,等到有一天需要回復舊有資料的場合時,才發現找不到過去某段期間的備份資料,造成無法彌補之後果。   2.    改善: 2.1 設計一執行檔,功能為打開備
Thumbnail
隔壁團隊的案子又出事了,因為設計時沒有確認到配合件的細部尺寸而停止生產,並需花費大量時間與經費將已經出貨的商品召回修理。光是去年便發生了不少次類似的事件,而且幾乎年年都有。 於是乎老闆們便又依循過往的模式要求一系列的檢討報告與將防堵機制加進設計確認清單以及設計檢驗報告中。
Thumbnail
在企業IT環境,系統和數據的備份的重要性相信是不用解說,亦不用懷疑的。 但很時時候,企業忽略的並不是備份,而是Drill test的重要性。
Thumbnail
戴明強調系統運作一定會有異常,而解決問題的關鍵在於正確判明原因並提出對策。改善系統時,不應該只憑經驗,而應該依據知識理論來訂出行動方案。文章探討了事件中的特殊和共同因,並強調要讓系統回到原有的運作狀態。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
近期在網路上看見兩起道歉事件:十盛奶茶風波與異色檔案盜用公視影片風波。雖說是都是道歉影片,然而我認為異色檔案的道歉影片堪稱教科書等級。 因此,本文想與各位分享真誠道歉,你該知道的3件事。畢竟,我們人都一定會有犯錯的時刻,但如何透過道歉來挽回,甚至建立新的人際關係,則是一件重要的人際關係藝術。
Thumbnail
上一篇文章聊到公司中明星人才不遵守制度引發的問題,在這篇文章中,我想分享一些我在管理上犯過的錯誤,希望能為大家提供一些啟示,避免重蹈我的覆轍。 如果你有任何想法,也歡迎和我分享! 1.同事私接外包,沒有證據該怎麼辦呢? 你遇過同事在公司私接外包的情況嗎? 若沒證據,你會怎麼處理呢
Thumbnail
如果遇到有人要你刪影片時,請留意其理由的正當性。 有時是避免重要細節被發現,有時是避免混入的破壞份子被識別,有時是要避免可以跟謊言對抗的真相被看到,有時是打擊熱門影片達到輿論影響力的限縮。 最常用的第一個錯誤理由是,違法行為會被警察發現。事實上(幾乎)所有直播都會被警察、中共、好事者備份。
服務建議書的格式和排版瑕疵, 在評審委員觀點或許不是重大缺失, 但在非專業人士的觀感上, 卻容易變成嚴重的放大缺失   服務建議書雖然不是正式報告或出版品, 仍需接受評審委員審視, 除了盡量避免低級錯誤外, 在排版上,也應追求整齊及美觀   為何會有低級錯誤及排版缺陷?  
Thumbnail
本文介紹了在K8S Cluster出現問題時,透過ETCD的備份來還原Cluster的方法。包括ETCD的資料類型、備份、還原以及相關建議,並提出了自動進行ETCD備份作業和備份存放位置的重要性。
砍掉重練…。不知道什麼時候起這四個字成了資訊人員的工作原則之一,但是,只要系統修改的時間超出一定範圍,砍掉重練的時間成本絕對低於原系統修改。 可是在基礎建設的部份呢? 例如伺服器、網路設備方面呢? 其實,砍掉重練也是常有的事,尤其虛擬化後,Server要砍掉重練更是輕而舉。
Thumbnail
資料庫之備份工作大都是自動執行,但是執行結果是否成功,需要安排人員去檢查,有時疏忽忘記確認作業,致備份工作失敗仍不知道,等到有一天需要回復舊有資料的場合時,才發現找不到過去某段期間的備份資料,造成無法彌補之後果。   2.    改善: 2.1 設計一執行檔,功能為打開備
Thumbnail
隔壁團隊的案子又出事了,因為設計時沒有確認到配合件的細部尺寸而停止生產,並需花費大量時間與經費將已經出貨的商品召回修理。光是去年便發生了不少次類似的事件,而且幾乎年年都有。 於是乎老闆們便又依循過往的模式要求一系列的檢討報告與將防堵機制加進設計確認清單以及設計檢驗報告中。
Thumbnail
在企業IT環境,系統和數據的備份的重要性相信是不用解說,亦不用懷疑的。 但很時時候,企業忽略的並不是備份,而是Drill test的重要性。
Thumbnail
戴明強調系統運作一定會有異常,而解決問題的關鍵在於正確判明原因並提出對策。改善系統時,不應該只憑經驗,而應該依據知識理論來訂出行動方案。文章探討了事件中的特殊和共同因,並強調要讓系統回到原有的運作狀態。