2025 年,人工智慧產業已不再是單純的技術競賽,而開啟了一場關於「真相」與「信任」的社會實驗;當 OpenAI 的 GPT-5 與 Google 的 Gemini 3 Pro 在推理能力、程式碼生成與多模態理解上展現出近乎神蹟的進步時,一個幽靈卻始終徘徊在這些矽晶圓大腦的深處——那就是「幻覺」。

信任的崩塌與數位幻象的代價
Google DeepMind 與 Google Research 於 2025 年末聯合發布的 FACTS 基準測試報告揭露:即便是地球上最強大的 AI 模型,在面對事實性問題時,若不依賴外部搜尋工具,其準確率僅徘徊在 69% 左右,就算是使用了外部搜尋增強工具輔助,也僅僅提升到83.8%。這意味著,我們將數位世界的控制權——從法律文書的撰寫到醫療診斷的輔助,再到金融資產的管理——交給了一個大概回答六個問題就可能撒一次謊的「代理人」。
論文:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality,20251211,Aileen Cheng、Alon Jacovi 及 63 位合著者(Google DeepMind 與 Google Research)準確率 83.8% 的 AI 遠比準確率 0% 的 AI 更具危險性。因為它足夠優秀,能誘使我們卸下心防,將關鍵決策外包給它;卻又足夠錯誤,能在最意想不到的時刻造成不可逆的損害。這就是為什麼在解決「接地性」(Grounding)問題之前,我們必須重新審視人機協作的邊界,並建立更嚴格的驗證機制。
Grounding 意味著將外部事實性資料與LLM 連結,使生成的回應更貼近現實並降低幻覺風險。RAG 則是一種透過知識庫檢索相關資訊並作為上下文提供的基礎技術。
Google DeepMind FACTS 基準測試
各大頂尖模型的表現如下表所示 :

Google DeepMind FACTS 基準測試結果
「接地性」(Grounding,即回答是否有憑有據、能否對應到真實世界來源)這一關鍵指標上,Gemini 3 Pro 以 69.0% 的成績略遜於 GPT-5 的 69.6%,這些數字揭示了一個令人不安的真相:即使是目前最先進的 AI,在面對事實性問題時,若不依賴外部搜尋引擎,其靠自身「記憶」回答的準確率難以突破 70% 的大關。
參數化知識 vs. 搜尋增強:記憶與查證
參數化知識:
矽晶圓大腦的「死記硬背」 參數化知識指的是 AI 在預訓練(Pre-training)過程中,通過閱讀海量文本數據所「內化」的知識。就像是學生進入考場,不帶課本,全憑腦袋裡的記憶作答。 數據顯示,Gemini 3 Pro 在這方面以 76.4% 遙遙領先 GPT-5 的 55.8% 。相比之下,Claude 4.5 Opus 在此項目僅得 30.6%,這說明 Anthropic 的訓練策略可能更側重於邏輯推理與安全性,而非將模型當作百科全書來訓練。
搜尋增強:
指的是 AI 可以使用工具(上網搜尋)來輔助作答。這是 AI 邁向實用的關鍵,也是目前產業界解決幻覺問題的主流解方——檢索增強生成(RAG)。
Gemini 3 Pro 在此項目達到 83.8%,大幅領先 GPT-5 的 77.7% 。這證明了當 AI 能夠「查證」時,其準確率會顯著提升。然而,即便有搜尋引擎加持,仍有 16.2% 的錯誤率。這 16.2% 的錯誤來自何處?
- 來源錯誤: AI 搜尋到了錯誤的資訊源(例如農場文章或假新聞)。
- 綜合錯誤: AI 搜尋到了正確資訊,但在閱讀理解與總結的過程中發生了扭曲。例如,搜尋結果說「A 事件未發生」,AI 卻總結為「A 事件發生了」。
- 過時資訊: 搜尋結果的時效性未被正確權重。
GPT-5 在參數化知識上的低分(55.8%)與其在接地性上的高分(69.6%)形成有趣對比。這暗示 OpenAI 的策略可能更傾向於訓練模型「如何思考」與「如何拒絕回答」,而非單純地「背誦事實」。這種策略在面對未知的、需要推理的問題時可能更具優勢,但在面對純粹的事實查詢時則顯得捉襟見肘。
多模態的深淵:當 AI「看圖說話」時的盲人摸象
如果說文字處理的 69% 讓人擔憂,那麼多模態——即 AI 處理圖片、影片的能力——目前的表現還是「慘不忍睹」。
在 FACTS 的多模態基準測試中,各家模型的得分普遍低於 50% ,這意味著,當你丟給 AI 一張圖片並詢問相關事實時,它有一半以上的機率會看錯、編造或誤解。
這些數據告訴我們:目前的 AI 視覺系統雖然能畫出精美的圖畫,但在「理解真實世界」並「準確描述」這件事上,可能還不如一個三歲小孩,仍有非常大的精進空間。
83.8% 的準確率在現實生活中意味著什麼?
在結合搜尋工具後,Gemini 3 Pro 躍升至 83.8%,顯示出 Google 在整合搜尋生態系上的傳統優勢;然而,即便是 83.8%,也意味著AI每六次搜尋增強的回答中,就有一次可能包含錯誤資訊。
如果你的汽車煞車系統有 83.8% 的機率能生效,你會開這輛車上路嗎?如果你的會計師有 83.8% 的機率算對稅務,你會僱用他嗎?在創意寫作或閒聊中,16.2% 的錯誤率或許是「驚喜」或「幽默」;但在撰寫新聞報導、醫療診斷書、法律文件或程式碼部署腳本時,這就是「災難」。
如同一位 Google 研究員在報告中所暗示的:「這取決於你的使用場景。對於新聞業這種錯誤會帶來真實後果的領域,一個會說『我不知道』的模型,遠比一個自信地編造謊言的模型來得可取」。
AI成果「看起來專業,但內容有疑義」的隱形成本
像這樣準確率 83.8% 的 AI 其實最為致命,因為它優秀到足以讓我們外包決策,卻又充滿陷阱。我也遇過好幾次同事交來的報告架構完美,內容卻夾雜著似是而非的數據或人名,當我花時間修正並詢問時,他們卻理直氣壯的說:「ChatGPT就是這樣寫的啊!」,令人哭笑不得。
AI 確實幫使用者省了時間,卻把查核的重擔丟給了隊友。出於大腦節能的本能,人們傾向停止批判性思考並盲信 AI,導致「一人省時,全體重工」。這種現象在專業領域尤為嚴重,根據史丹佛大學與BetterUp Labs在《哈佛商業評論》的研究,這種情形讓企業平均每位員工每月因此產生 186 美元 的額外成本。這不僅造成企業鉅額的生產力損失,更在無形中摧毀了職場最珍貴的資產——信任。
結論——跨越信任的峽谷
回到標題的問題:為什麼我們還不能把世界交給 AI?
答案不在於 AI 不夠聰明,而在於它「過於聰明」卻缺乏「誠實」。雖然 Gemini 3 Pro 和 GPT-5 展現了驚人的運算與語言能力,但在最基礎的「就事論事」上,它們依然像個愛說謊的神童。
未來的關鍵能力,不再是單純的操作 AI,而是具備足夠的專業知識去審核與管理它的產出;畢竟,如果「驗證時間」超過了「執行時間」,AI 就不再是資產,而是負債。
我們無法阻擋 AI 的趨勢,但我們可以決定如何使用它——讓它成為我們專業的擴大機,而不是思考替代品。在將 AI 生成的結果交付出去之前,請務必守住最後一道防線: 「這些資訊,我都核實過了嗎?」
延伸閱讀
The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality,20251211,Aileen Cheng、Alon Jacovi 及 63 位合著者(Google DeepMind 與 Google Research)。
Google's New Benchmark Reveals Wide Gaps in AI Factual Accuracy — and Shows Search Tools Help,20251213,Hacks/Hackers AI。





















