最近一場給查帳人員的培訓測試讓我發現:大家往往在更早的階段,就已經受到系統資訊的暗示。這比單純探討「盲目相信 AI」更值得管理階層關注。
今天,我在一場針對查帳人員的培訓中,跳過模型解說與工具介紹,直接請大家掃描 QR Code 當場作答。問卷共 12 題,前 2 題做 A、B 分流,後 10 題全體一致。題目簡短,避開準則條文和定義,要求憑直覺回答。設計這套問卷的目的,在於觀察 AI 導入審計流程後,查帳人員如何下判斷。題目設計受行為經濟學研究啟發,主要想了解在時間短、資料有限且有提示訊號介入時,人的第一反應傾向。測試結果凸顯了三件事:第一,人容易被最先看到的數字定錨。第二,人容易先相信自己原有的懷疑。第三,影響審計判斷的關鍵因素,往往取決於 AI 一開始呈現資訊的方式。
初始數字直接改變後續判斷
問卷第 1 題極具代表性。A 組看到的情境是:AI 初步掃描某大型採購專案,顯示「異常機率 85%」。接著請他們憑直覺寫下,該案最終查出重大缺失的機率。B 組看到完全相同的情境,差別只在數字改為「異常機率 5%」。
結果十分明確:A 組平均估計值為 52.3(中位數 50),B 組平均估計值僅 23.7(中位數 7.5)。
案件內容完全相同,第一眼看到的數字卻大幅改變了判斷結果。這種顯著的差距說明,AI 產出的風險分數具備強大的定錨效果,直接設定了查帳人員的思考起點。
這點在企業審計實務中至關重要。不論是內部稽核、費用審查或供應商異常交易偵測,查帳人員每天都要面對龐大資料與時間壓力。系統一開始標示的「高風險」或「低風險」,實際上已經引導了注意力的分配。後續是否追查、從何查起、是否擴大抽核,都會受到初始數字的影響。
企業導入 AI 時,通常聚焦於模型準確率。但測試結果指出一個更現實的管理議題:風險分數一旦出現,會立刻引導查帳人員走向特定的查核方向。
查帳人員容易過早下定論
總結這次測試,多數受試者其實傾向過早相信自己的直覺。
第 6 題問:當專業判斷與 AI 風險評估完全相反,且尚未調閱原始憑證前,你有多大把握認為自己的判斷比較準確?結果平均數高達 72.7,中位數達 80。這意味著在檢視實質證據前,多數人就已經高度自信。
第 7 題情境為:你審閱某單位的費用申報資料,已心生浮報疑慮。AI 同時產出「符合規定清單」與「疑似違規清單」兩份報告,你會先點開哪一份?高達 96.7% 的人選擇先看「疑似違規清單」。
這顯示確認偏誤(Confirmation Bias)的作用:當人產生懷疑,會優先尋找支持該懷疑的證據。審計的核心在於保持客觀,過早鎖定單一查核方向會帶來極高的風險。AI 導入審計流程後,管理者必須處理一項隱性挑戰:查帳人員可能更早鎖定查核方向,並利用 AI 報告來背書。這種情況比單純的系統誤判更棘手,因為它披著專業判斷的外衣,實際上卻是過早定調。
摘要依賴比盲從系統更值得警覺
許多人擔憂查帳人員會將判斷權全盤交給 AI,但測試結果推翻了這項假設。
第 8 題情境為:AI 判定某案低風險,不建議擴大查核;但你在付款憑證上發現異常日期。結果有 93.3% 的人選擇追查憑證,僅 6.7% 聽從 AI 建議。這證實當查帳人員親眼發現異常時,多數人仍會堅持專業懷疑,具備獨立判斷能力。
但第 12 題透露了隱憂。情境為:AI 提供一段五行摘要,結論寫著「目前無重大異常,建議照原計畫進行」。有 56.7% 的人選擇接受摘要並繼續執行;33.3% 回頭檢視原始資料;10% 找同仁討論。
這反映出一個實務現象:只要 AI 產出的摘要看似平順、有條理,多數人便會順勢接受。對照第 8 題,當異常直接呈現在眼前,查帳人員會追查;但當 AI 將資訊整理得毫無破綻時,多數人便喪失檢視原始資料的動力。AI 在審計流程中發揮最大影響力的環節,其實是那段看似省事的文字摘要,這大幅降低了人員的防備心。
媒體熱度、系統介面與預設值同樣左右行為
審計實務也常受程序外的因素干擾。第 4 題問:近期媒體大量報導某企業供應鏈採購舞弊。排定下半年查核重點時,將「採購交易與供應商付款」列為最高優先的意願有多高?滿分 10 分,平均達 7.7 分。這反映可用性捷思(Availability Heuristic)的影響,媒體熱度會直接放大查帳人員對特定風險的感知程度。
第 11 題顯示,兩套分析結果完全相同的 AI 工具,63.3% 的人認為具備現代化圖表介面的工具更可靠,僅 3.3% 選擇傳統表格介面。企業內部稽核主管必須注意,系統介面的美觀程度容易被使用者誤認為是分析能力的展現,導致過度信任精緻的系統輸出。
第 10 題探討系統預設值對使用頻率的影響。46.7% 選擇在「預設開啟」時使用頻率較高。企業導入系統時常將預設值視為操作細節,但在行為科學上,預設架構(Default Architecture)直接決定了工具的落地成效。媒體關注度、介面美學與系統預設值,都在無形中塑造了查帳人員的行為模式。
心理偏誤在實務測試中的浮現程度存在差異
問卷中也有一題結果未達預期。第 2 題測試框架效應(Framing Effect)。A 組看「100 件可正確判斷 90 件」,B 組看「100 件會錯判 10 件」。兩組對於導入意願的選擇比例差異不大。合理的解釋是,受測樣本數有限且分配不均,加上參與者對 AI 工具本身就抱持正面態度。實務測試適合捕捉強烈且直觀的行為反應,主要功能在於發掘趨勢,我們必須認知到單次測試有其侷限性。
實務測試帶給企業稽核的三個具體提醒
第一,AI 同時是分配注意力的工具。它指引疑點、提供安全訊號、整理閱讀摘要。系統若建置於流程前端,必然會介入查帳人員的判斷順序。
第二,防範過早確信的傾向。多數人能在實體異常前踩煞車,卻容易提早鎖定查核方向,並單向尋找支持性證據。企業必須建立機制,確保反向查證程序的執行。
第三,審慎評估系統介面與提示機制。風險分數的呈現時機、摘要的版面位置、系統預設值的開關,都會直接改變使用者的查核行為。這些環節必須納入稽核流程的控管範圍。
結論:關注判斷形成的起點
測試證明,民間查帳人員具備堅實的專業底蘊。面對憑證上的具體異常,多數人仍會啟動追查機制。我們必須正視的是行為經濟學的普遍現象:專家同樣會受到初始數字、近期新聞、平順摘要、視覺介面與既有偏見的影響。
AI 進入企業審計環節,我們更該關注它如何設定思考的起點。許多判斷並非在最後一刻才成形,早在使用系統的最初幾秒鐘,查核的方向就已經被悄悄決定了。











