9月8日那天早上,某些急著用錢的日本瑞穗銀行(Mizuho Bank)的客戶都無計可施,根據瑞穗銀行的說法,有大約100台ATM因為硬體系統的問題無法提供服務,但是很快就被排除。
對於銀行來說,ATM故障並不罕見,但是對日本第三大銀行瑞穗銀行來說,這並不是單一個案,而是今年以來第七次系統發生問題。
今年2月28日,因為系統處理的問題,導致4,318台ATM無法提供服務,5,244件存摺和信用卡被卡在ATM機器中無法取出,而且因為當天是假日,所以客戶只能在ATM前面枯等很長一段時間。3月3日,銀行機房的網路設備出現問題,儘管只有三分鐘,但依然造成了29件存摺和信用卡被ATM吃掉,某些交易無法進行的狀況。
3月7日,消費信貸產品的遲延利息功能設定上線,但是忽略了系統設計的初始化流程,導致客戶無法透過ATM等進行定存交易。3月12日,同樣因為系統故障,導致263筆匯到他行的匯款和761筆外匯轉帳無法在當天完成。
8月20日的系統問題,則導致瑞穗銀行全部463間分行和瑞穗信託銀行(Mizuho Trust & Banking Co., Ltd.)60家分行的櫃檯都無法辦理存匯款業務,根據瑞穗金融集團的說法,這是因為連結銀行核心系統和分行間的伺服器出現問題,備援系統也因為某些原因無法運作,問題在週四被發現,直到週五中午才被排除。
根據瑞穗銀行的說法,銀行的熱備份系統(hot standby system)-也就是和原來的主系統同時運行,以便出問題時可以立刻上線-並沒有如預期立刻接續營運,該銀行位在千葉的機房有收到主系統的資料,但是卻需要人工才能啟動,這顯示銀行的軟硬體設備都有些問題。
「我們非常慎重地看待這次問題,並且會努力避免先前二月和三月時的故障再度發生。」瑞穗金融集團總裁坂井辰史在記者會上向受到影響的客戶鞠躬道歉。
就連時任內閣官房長官的加藤勝信都說了重話,他在記者會上說這樣的系統故障「對金融機構的信任帶來嚴重打擊,令人非常遺憾」,而且會「對個人和公司客戶造成重大影響。」
儘管如此,但瑞穗銀行的系統厄運還沒結束,三天後,該行的系統再度故障,這次則導致約130台ATM無法運作,直到下午才恢復正常。
對主管機關來說,資訊系統故障除了可能會影響客戶權益之外,也代表了銀行內部的內部控制和風險管理有問題,也因此成為主管機關關注的焦點。
2020年10月時,美國聯邦儲備銀行和財政部貨幣監理署(Office of Comptroller of Currency)對花旗銀行開罰4億美元,指稱該銀行風險管理和內部控制的許多方面都有明顯且持續的缺失,其中包括了資料管理、主管機關報表和資本計畫等項目。
根據《華爾街日報》的報導,美國主管機關最不滿意的一點,就是負責偵測風險和保護客戶資料的系統架構,在花旗銀行眾多業務下,許多部門都有自己用來追蹤客戶和交易的系統,而且彼此獨立,因此同一個客戶在花旗銀行裡面可能有好幾個不同的代碼。
會有這樣的情形來自於花旗銀行在上個世紀九〇年代的併購交易,雖然讓花旗銀行成了一個巨大的金融集團,但背後系統架構的複雜程度,卻可能讓銀行付出慘痛的代價,2020年8月時,身為露華濃(Revlon)貸款代理機構的花旗銀行,為替該公司向債權人償還近780萬美元的利息,結果卻錯誤匯出了近9億美元,而債權人拒絕償還,最後只好鬧上法院。
金融機構靠著購併擴大版圖,除了可以擴張業務和客戶之外,資訊系統的整合是一般人所看不到的辛苦和陰暗面,和花旗銀行一樣,瑞穗金融集團的資訊系統之所以有這麼多問題,也與以往的購併相關。
現代瑞穗金融集團的成立背景,來自於日本在1991年起陷入的經濟蕭條,後來被稱為「失落的十年」(lost decade),而受到保護而沒有經歷競爭的銀行業,無法承受當初在沒有適當風險控管下的鉅額貸放,開始產生大量的不良債權,而在當時日本首相橋本龍太郎的改革之下,要求建立讓金融業依據市場原理自由運作、建立透明化、充分信賴的自由市場和建立領先國際地位的市場,導致了銀行業的合併風潮,因此在2002年第一勸業銀行、富士銀行與日本興業銀行合併成瑞穗銀行,而三井住友銀行和東京三菱UFJ銀行也分別在2001年及2006年經由合併誕生。
但是在三家銀行合併之初,資訊系統的整合就面對很大的問題,三家銀行原先分別採用不同的資訊系統廠商,第一勸業銀行用的是富士通,富士銀行用的是IBM,日本興業銀行則是日立,而在合併之後又找了一家資訊廠商NTT Data。
要整合多家資訊系統廠商已經是大問題了,更糟糕的是瑞穗銀行沒有指定哪一家領頭,負責主要系統架構,使得瑞穗銀行的系統一直以來都相當複雜,而對於資訊系統應該如何架構的舉棋不定,最後更導致沒有足夠的測試和整合時間。
2002年4月1日,由三家銀行合併的瑞穗銀行正式營業的第一天,資訊系統就出了大問題,儼然是後續災難不斷的預兆,ATM交易發生故障,導致客戶帳上餘額減少,但卻無法從機器裡提取現金,光是一天之內就有超過10萬筆自動扣款交易失敗,到了4月5日時已經累積到250萬筆未處理交易,除此之外,還有3萬筆重複扣款交易,這些問題花了瑞穗銀行超過一個月才搞定。
除了ATM的問題,瑞穗銀行和瑞穗實業銀行的客戶還遇到了轉帳交易延遲、付款通知拖延等等不同問題。
在造成這麼大混亂之後,日本金融廳對瑞穗銀行進行了金融檢查,認定系統故障的根本原因有三個。首先,瑞穗銀行沒有盡到最基本的必要準備,包括適當的系統測試和對系統功能的驗證,銀行的高層沒有認知到系統整合所帶來的風險,結果對於某些早在系統整合之初就該解決的問題,銀行高層的決策過於遲延,最後導致沒有足夠的系統開發和測試的時間,銀行員工的訓練也不足。
其次,銀行內部的呈報和溝通架構有嚴重的問題,導致系統測試不良的結果只有內部系統開發部門知道,就連提供給主管機關的資料都未必正確。最後,瑞穗實業銀行沒有適當的營運架構,以提供大規模的業務運作。
基於這些系統故障的根本原因,金融廳要求瑞穗銀行改善系統故障問題、強化系統開發架構,並且釐清銀行高層的責任。
但系統故障對於瑞穗銀行來說,就像是個揮之不去的惡夢。2011年3月,規模8.4的東日本大地震導致超過一萬八千人罹難或行蹤不明,超過十萬棟建築物全毀,當時瑞穗銀行設立了捐款專戶,但如潮水般湧入的善款卻導致銀行資訊系統再度故障,38萬筆匯款交易無法處理,合計金額超過4,900億元,到了3月18日累積116萬筆交易,金額約8,296億元的匯款無法處理,直到一個禮拜之後才解決。
這兩次重大的系統故障讓瑞穗銀行下定決心,花了4,500億日圓,歷時近二十年,打造了一個嶄新的核心系統「MINORI」,最終在2019年7月上線。
只不過,就連MINORI系統似乎也逃不了故障的命運,但瑞穗銀行自己也知道問題出在哪裡。
在二月到三月間出現四次系統故障之後,瑞穗金融集團在四月間成立了系統故障特別調查委員會,成員包括了律師、前NTT Docomo資訊部門高層、Accenture和KPMG等協助調查,他們檢視了相關文件,訪談超過百位員工和主管,也檢視了上萬封的電子郵件,並且對超過五百位員工進行問卷調查,最後歸納出三類原因,分別是組織對於危機情況的反應能力不足、資訊系統管理能力不足和對於客戶角度的關注不足,而會有這三類情形的根本原因,在於銀行內部文化並不鼓勵勇於任事。
「在系統故障的緊急情況時,相關單位對於採取積極且超越自己本身職責的行為以減低和解決問題,抱持乏善可陳的態度。除此之外,當系統故障的細節和對於客戶影響還不完全清楚之時,他們避免做出陳述和行動,因為感覺這樣會帶來風險。」特別調查委員會的報告中這樣寫道。
「高階主管和員工缺乏主動積極的態度,主要原因是他們只做自己有限的職責以內的工作,而不是冒著可能產生的責任風險主動發聲,這似乎是一種公司文化,認為在組織內這樣的行動是一個理性的選擇。」
根據特別調查委員會在六月中所出具的報告,瑞穗金融集團和瑞穗銀行也提出了相對應的改善措施,除了對於資訊系統、對客戶反應以及危機管理等層面提出計畫之外,瑞穗銀行也會強化組織和員工能力,鼓勵跨部門發展的生涯發展、引進更多新血、實施員工教育訓練和組織層級簡化。
在員工行為轉型方面,他們會推廣獨立思考和即時行動的工作態度,減少會議前的資料準備、改為強調會議討論,並且推廣總行和前線人員間利用自己知識和想法提供客戶服務的整合。
只不過這些似乎依據報告陸續進行的改善方案,趕不上不斷出問題的資訊系統。自從二月發生系統問題之後,日本金融廳就開始對瑞穗銀行進行金融檢查,而在發生第七次系統問題後,金融廳更在9月22日發佈業務改善命令,要求瑞穗銀行重新檢視資訊系統升級的計畫,並且考量過去所發生的系統問題、必要性和急迫性,還有涉及的風險,確保制定了適當的管理架構,將檢視結果和計畫交由瑞穗金融集團確認後,在十月底前呈報這些資料給金融廳。
「我想不出金融廳曾經如此深地介入銀行資訊系統檢查。」資深銀行分析師Brian Waterhouse這樣對《路透社》說:「這顯示了金融廳對這些問題有多擔心。」
但是在期限還沒到之前,瑞穗銀行又發生了系統故障-今年以來的第八次,影響了將近四百筆外匯轉帳交易。
一而再、再而三的系統故障問題,不僅凸顯出了瑞穗銀行的內部管理問題,也嚴重打擊了客戶對銀行的信心,而客戶的信任就是金融業最重要的資產,要怎麼重建客戶對瑞穗金融集團的信心,怎麼在發生系統故障時應變,將對客戶的傷害降到最低,不但是金融廳要求瑞穗銀行呈報的重點,也是瑞穗銀行往後更應該關注的焦點。
當然,最重要的還是回到文化,怎麼讓員工更勇於任事和即時反應,降低災難發生的機率,在災難之前就提前因應準備,這都不是改善計畫的文字就足以帶來改變的,但這才是最重要的事。
而不是價值4,500億日圓的嶄新系統可以做到的。