Google 最新研究揭露殘酷真相：為什麼我們還不能把世界交給 AI？

2025/12/25 更新2025/12/25 發佈閱讀 9 分鐘

2025 年，人工智慧產業已不再是單純的技術競賽，而開啟了一場關於「真相」與「信任」的社會實驗；當 OpenAI 的 GPT-5 與 Google 的 Gemini 3 Pro 在推理能力、程式碼生成與多模態理解上展現出近乎神蹟的進步時，一個幽靈卻始終徘徊在這些矽晶圓大腦的深處——那就是「幻覺」。

信任的崩塌與數位幻象的代價

Google DeepMind 與 Google Research 於 2025 年末聯合發布的 FACTS 基準測試報告揭露：即便是地球上最強大的 AI 模型，在面對事實性問題時，若不依賴外部搜尋工具，其準確率僅徘徊在 69% 左右，就算是使用了外部搜尋增強工具輔助，也僅僅提升到83.8%。這意味著，我們將數位世界的控制權——從法律文書的撰寫到醫療診斷的輔助，再到金融資產的管理——交給了一個大概回答六個問題就可能撒一次謊的「代理人」。

論文：The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality，20251211，Aileen Cheng、Alon Jacovi 及 63 位合著者（Google DeepMind 與 Google Research）

準確率 83.8% 的 AI 遠比準確率 0% 的 AI 更具危險性。因為它足夠優秀，能誘使我們卸下心防，將關鍵決策外包給它；卻又足夠錯誤，能在最意想不到的時刻造成不可逆的損害。這就是為什麼在解決「接地性」（Grounding）問題之前，我們必須重新審視人機協作的邊界，並建立更嚴格的驗證機制。

Grounding 意味著將外部事實性資料與LLM 連結，使生成的回應更貼近現實並降低幻覺風險。RAG 則是一種透過知識庫檢索相關資訊並作為上下文提供的基礎技術。

Google DeepMind FACTS 基準測試

各大頂尖模型的表現如下表所示：

Google DeepMind FACTS 基準測試結果

「接地性」（Grounding，即回答是否有憑有據、能否對應到真實世界來源）這一關鍵指標上，Gemini 3 Pro 以 69.0% 的成績略遜於 GPT-5 的 69.6%，這些數字揭示了一個令人不安的真相：即使是目前最先進的 AI，在面對事實性問題時，若不依賴外部搜尋引擎，其靠自身「記憶」回答的準確率難以突破 70% 的大關。

參數化知識 vs. 搜尋增強：記憶與查證

參數化知識：

矽晶圓大腦的「死記硬背」 參數化知識指的是 AI 在預訓練（Pre-training）過程中，通過閱讀海量文本數據所「內化」的知識。就像是學生進入考場，不帶課本，全憑腦袋裡的記憶作答。數據顯示，Gemini 3 Pro 在這方面以 76.4% 遙遙領先 GPT-5 的 55.8% 。相比之下，Claude 4.5 Opus 在此項目僅得 30.6%，這說明 Anthropic 的訓練策略可能更側重於邏輯推理與安全性，而非將模型當作百科全書來訓練。

搜尋增強：

指的是 AI 可以使用工具（上網搜尋）來輔助作答。這是 AI 邁向實用的關鍵，也是目前產業界解決幻覺問題的主流解方——檢索增強生成（RAG）。

Gemini 3 Pro 在此項目達到 83.8%，大幅領先 GPT-5 的 77.7% 。這證明了當 AI 能夠「查證」時，其準確率會顯著提升。然而，即便有搜尋引擎加持，仍有 16.2% 的錯誤率。這 16.2% 的錯誤來自何處？

來源錯誤： AI 搜尋到了錯誤的資訊源（例如農場文章或假新聞）。
綜合錯誤： AI 搜尋到了正確資訊，但在閱讀理解與總結的過程中發生了扭曲。例如，搜尋結果說「A 事件未發生」，AI 卻總結為「A 事件發生了」。
過時資訊： 搜尋結果的時效性未被正確權重。

GPT-5 在參數化知識上的低分（55.8%）與其在接地性上的高分（69.6%）形成有趣對比。這暗示 OpenAI 的策略可能更傾向於訓練模型「如何思考」與「如何拒絕回答」，而非單純地「背誦事實」。這種策略在面對未知的、需要推理的問題時可能更具優勢，但在面對純粹的事實查詢時則顯得捉襟見肘。

多模態的深淵：當 AI「看圖說話」時的盲人摸象

如果說文字處理的 69% 讓人擔憂，那麼多模態——即 AI 處理圖片、影片的能力——目前的表現還是「慘不忍睹」。

在 FACTS 的多模態基準測試中，各家模型的得分普遍低於 50% ，這意味著，當你丟給 AI 一張圖片並詢問相關事實時，它有一半以上的機率會看錯、編造或誤解。

這些數據告訴我們：目前的 AI 視覺系統雖然能畫出精美的圖畫，但在「理解真實世界」並「準確描述」這件事上，可能還不如一個三歲小孩，仍有非常大的精進空間。

83.8% 的準確率在現實生活中意味著什麼？

在結合搜尋工具後，Gemini 3 Pro 躍升至 83.8%，顯示出 Google 在整合搜尋生態系上的傳統優勢；然而，即便是 83.8%，也意味著AI每六次搜尋增強的回答中，就有一次可能包含錯誤資訊。

如果你的汽車煞車系統有 83.8% 的機率能生效，你會開這輛車上路嗎？如果你的會計師有 83.8% 的機率算對稅務，你會僱用他嗎？在創意寫作或閒聊中，16.2% 的錯誤率或許是「驚喜」或「幽默」；但在撰寫新聞報導、醫療診斷書、法律文件或程式碼部署腳本時，這就是「災難」。

如同一位 Google 研究員在報告中所暗示的：「這取決於你的使用場景。對於新聞業這種錯誤會帶來真實後果的領域，一個會說『我不知道』的模型，遠比一個自信地編造謊言的模型來得可取」。

AI成果「看起來專業，但內容有疑義」的隱形成本

像這樣準確率 83.8% 的 AI 其實最為致命，因為它優秀到足以讓我們外包決策，卻又充滿陷阱。我也遇過好幾次同事交來的報告架構完美，內容卻夾雜著似是而非的數據或人名，當我花時間修正並詢問時，他們卻理直氣壯的說：「ChatGPT就是這樣寫的啊！」，令人哭笑不得。

AI 確實幫使用者省了時間，卻把查核的重擔丟給了隊友。出於大腦節能的本能，人們傾向停止批判性思考並盲信 AI，導致「一人省時，全體重工」。這種現象在專業領域尤為嚴重，根據史丹佛大學與BetterUp Labs在《哈佛商業評論》的研究，這種情形讓企業平均每位員工每月因此產生 186 美元 的額外成本。這不僅造成企業鉅額的生產力損失，更在無形中摧毀了職場最珍貴的資產——信任。

結論——跨越信任的峽谷

回到標題的問題：為什麼我們還不能把世界交給 AI？

答案不在於 AI 不夠聰明，而在於它「過於聰明」卻缺乏「誠實」。雖然 Gemini 3 Pro 和 GPT-5 展現了驚人的運算與語言能力，但在最基礎的「就事論事」上，它們依然像個愛說謊的神童。

未來的關鍵能力，不再是單純的操作 AI，而是具備足夠的專業知識去審核與管理它的產出；畢竟，如果「驗證時間」超過了「執行時間」，AI 就不再是資產，而是負債。

我們無法阻擋 AI 的趨勢，但我們可以決定如何使用它——讓它成為我們專業的擴大機，而不是思考替代品。在將 AI 生成的結果交付出去之前，請務必守住最後一道防線： 「這些資訊，我都核實過了嗎？」

延伸閱讀

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality，20251211，Aileen Cheng、Alon Jacovi 及 63 位合著者（Google DeepMind 與 Google Research）。

Google's New Benchmark Reveals Wide Gaps in AI Factual Accuracy — and Shows Search Tools Help，20251213，Hacks/Hackers AI。

留言

維那思的異想世界

26會員

140內容數

這裡分享維那思的日常與異想

維那思的異想世界的其他內容

2025/12/22

2025年人類到底用AI做什麼？竟然大多數用來做角色扮演！！

OpenRouter《2025 年 AI 現狀報告》分析揭露：AI 的最大用途並非生產力，而是佔比逾 50% 的「角色扮演」。人類渴望的是情感陪伴、隱私與無審查的互動。這顯示大眾最需要的，是能理解與包容的「數位靈魂」，而非僅是冷冰冰的工具。

2025/12/22

2025年人類到底用AI做什麼？竟然大多數用來做角色扮演！！

2025/12/15

帝國的反擊還是新希望？迪士尼豪擲 10 億美元聯手 OpenAI，好萊塢的 AI 創作時刻來臨

就在上週四（2025 年 12 月 11 日），全球娛樂產業經歷了一場前所未有的板塊運動。這不是一部新電影的上映，也不是某個主題樂園的擴建，而是一則足以改寫未來十年內容創作規則的重磅公告：華特迪士尼公司正式宣布向人工智慧巨頭 OpenAI 投資 10 億美元，並達成一項為期三年的戰略合作夥伴關係。

2025/12/15

帝國的反擊還是新希望？迪士尼豪擲 10 億美元聯手 OpenAI，好萊塢的 AI 創作時刻來臨

2025/12/12

算力戰爭的終局可能不在晶片，而在軌道：為何 SpaceX 才是美國對抗中國「能源霸權」的最後王牌？

2025 年 11 月 2 日，AI 競賽進入「太空能源」新紀元。面對中國在地面電力擴容與基建速度上的壓倒性優勢，美國電網已成發展瓶頸。然而，太空資料中心具備無限太陽能與零水耗散熱優勢，結合 SpaceX Starship 帶來的發射成本革命，成為美國扭轉局勢的戰略王牌...

2025/12/12

算力戰爭的終局可能不在晶片，而在軌道：為何 SpaceX 才是美國對抗中國「能源霸權」的最後王牌？

#AI 的其他內容

AI 特助開聘：Notion 工作空間，終於有自動做事的 AI 員工了｜Notion Custom Agents

金融人類學徒

AI 浪潮下的「毀滅性創新」：解析湯森路透、納斯達克股價重挫的關鍵

與老查一起讀商業好書

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14