Google 最新研究揭露殘酷真相:為什麼我們還不能把世界交給 AI?

更新 發佈閱讀 9 分鐘

2025 年,人工智慧產業已不再是單純的技術競賽,而開啟了一場關於「真相」與「信任」的社會實驗;當 OpenAI 的 GPT-5 與 Google 的 Gemini 3 Pro 在推理能力、程式碼生成與多模態理解上展現出近乎神蹟的進步時,一個幽靈卻始終徘徊在這些矽晶圓大腦的深處——那就是「幻覺」。

raw-image

信任的崩塌與數位幻象的代價

Google DeepMind 與 Google Research 於 2025 年末聯合發布的 FACTS 基準測試報告揭露:即便是地球上最強大的 AI 模型,在面對事實性問題時,若不依賴外部搜尋工具其準確率僅徘徊在 69% 左右,就算是使用了外部搜尋增強工具輔助,也僅僅提升到83.8%。這意味著,我們將數位世界的控制權——從法律文書的撰寫到醫療診斷的輔助,再到金融資產的管理——交給了一個大概回答六個問題就可能撒一次謊的「代理人」。

論文:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality,​20251211,Aileen Cheng、Alon Jacovi 及 63 位合著者(Google DeepMind 與 Google Research)

準確率 83.8% 的 AI 遠比準確率 0% 的 AI 更具危險性。因為它足夠優秀,能誘使我們卸下心防,將關鍵決策外包給它;卻又足夠錯誤,能在最意想不到的時刻造成不可逆的損害。這就是為什麼在解決「接地性」(Grounding)問題之前,我們必須重新審視人機協作的邊界,並建立更嚴格的驗證機制。

Grounding 意味著將外部事實性資料與LLM 連結,使生成的回應更貼近現實並降低幻覺風險。RAG 則是一種透過知識庫檢索相關資訊並作為上下文提供的基礎技術。

Google DeepMind FACTS 基準測試

各大頂尖模型的表現如下表所示 :

Google DeepMind FACTS 基準測試結果

Google DeepMind FACTS 基準測試結果

「接地性」(Grounding,即回答是否有憑有據、能否對應到真實世界來源)這一關鍵指標上,Gemini 3 Pro 以 69.0% 的成績略遜於 GPT-5 的 69.6%,這些數字揭示了一個令人不安的真相:即使是目前最先進的 AI,在面對事實性問題時,若不依賴外部搜尋引擎,其靠自身「記憶」回答的準確率難以突破 70% 的大關。

參數化知識 vs. 搜尋增強:記憶與查證

參數化知識:

矽晶圓大腦的「死記硬背」 參數化知識指的是 AI 在預訓練(Pre-training)過程中,通過閱讀海量文本數據所「內化」的知識。就像是學生進入考場,不帶課本,全憑腦袋裡的記憶作答。 數據顯示,Gemini 3 Pro 在這方面以 76.4% 遙遙領先 GPT-5 的 55.8% 。相比之下,Claude 4.5 Opus 在此項目僅得 30.6%,這說明 Anthropic 的訓練策略可能更側重於邏輯推理與安全性,而非將模型當作百科全書來訓練。

搜尋增強:

指的是 AI 可以使用工具(上網搜尋)來輔助作答。這是 AI 邁向實用的關鍵,也是目前產業界解決幻覺問題的主流解方——檢索增強生成(RAG)。

Gemini 3 Pro 在此項目達到 83.8%,大幅領先 GPT-5 的 77.7% 。這證明了當 AI 能夠「查證」時,其準確率會顯著提升。然而,即便有搜尋引擎加持,仍有 16.2% 的錯誤率。這 16.2% 的錯誤來自何處?

  1. 來源錯誤: AI 搜尋到了錯誤的資訊源(例如農場文章或假新聞)。
  2. 綜合錯誤: AI 搜尋到了正確資訊,但在閱讀理解與總結的過程中發生了扭曲。例如,搜尋結果說「A 事件未發生」,AI 卻總結為「A 事件發生了」。
  3. 過時資訊: 搜尋結果的時效性未被正確權重。

GPT-5 在參數化知識上的低分(55.8%)與其在接地性上的高分(69.6%)形成有趣對比。這暗示 OpenAI 的策略可能更傾向於訓練模型「如何思考」與「如何拒絕回答」,而非單純地「背誦事實」。這種策略在面對未知的、需要推理的問題時可能更具優勢,但在面對純粹的事實查詢時則顯得捉襟見肘。

多模態的深淵:當 AI「看圖說話」時的盲人摸象

如果說文字處理的 69% 讓人擔憂,那麼多模態——即 AI 處理圖片、影片的能力——目前的表現還是「慘不忍睹」。

在 FACTS 的多模態基準測試中,各家模型的得分普遍低於 50% ,這意味著,當你丟給 AI 一張圖片並詢問相關事實時,它有一半以上的機率會看錯、編造或誤解。

這些數據告訴我們:目前的 AI 視覺系統雖然能畫出精美的圖畫,但在「理解真實世界」並「準確描述」這件事上,可能還不如一個三歲小孩,仍有非常大的精進空間。

83.8% 的準確率在現實生活中意味著什麼?

在結合搜尋工具後,Gemini 3 Pro 躍升至 83.8%,顯示出 Google 在整合搜尋生態系上的傳統優勢;然而,即便是 83.8%,也意味著AI每六次搜尋增強的回答中,就有一次可能包含錯誤資訊。

如果你的汽車煞車系統有 83.8% 的機率能生效,你會開這輛車上路嗎?如果你的會計師有 83.8% 的機率算對稅務,你會僱用他嗎?在創意寫作或閒聊中,16.2% 的錯誤率或許是「驚喜」或「幽默」;但在撰寫新聞報導、醫療診斷書、法律文件或程式碼部署腳本時,這就是「災難」。

如同一位 Google 研究員在報告中所暗示的:「這取決於你的使用場景。對於新聞業這種錯誤會帶來真實後果的領域,一個會說『我不知道』的模型,遠比一個自信地編造謊言的模型來得可取」。


AI成果「看起來專業,但內容有疑義」的隱形成本

像這樣準確率 83.8% 的 AI 其實最為致命,因為它優秀到足以讓我們外包決策,卻又充滿陷阱。我也遇過好幾次同事交來的報告架構完美,內容卻夾雜著似是而非的數據或人名,當我花時間修正並詢問時,他們卻理直氣壯的說:「ChatGPT就是這樣寫的啊!」,令人哭笑不得。

AI 確實幫使用者省了時間,卻把查核的重擔丟給了隊友。出於大腦節能的本能,人們傾向停止批判性思考並盲信 AI,導致「一人省時,全體重工」。這種現象在專業領域尤為嚴重,根據史丹佛大學與BetterUp Labs在《哈佛商業評論》的研究,這種情形讓企業平均每位員工每月因此產生 186 美元 的額外成本。這不僅造成企業鉅額的生產力損失,更在無形中摧毀了職場最珍貴的資產——信任。


結論——跨越信任的峽谷

回到標題的問題:為什麼我們還不能把世界交給 AI?

答案不在於 AI 不夠聰明,而在於它「過於聰明」卻缺乏「誠實」。雖然 Gemini 3 Pro 和 GPT-5 展現了驚人的運算與語言能力,但在最基礎的「就事論事」上,它們依然像個愛說謊的神童。

未來的關鍵能力,不再是單純的操作 AI,而是具備足夠的專業知識去審核與管理它的產出;畢竟,如果「驗證時間」超過了「執行時間」,AI 就不再是資產,而是負債。

我們無法阻擋 AI 的趨勢,但我們可以決定如何使用它——讓它成為我們專業的擴大機,而不是思考替代品。在將 AI 生成的結果交付出去之前,請務必守住最後一道防線: 「這些資訊,我都核實過了嗎?」


延伸閱讀

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality,​20251211,Aileen Cheng、Alon Jacovi 及 63 位合著者(Google DeepMind 與 Google Research)。

Google's New Benchmark Reveals Wide Gaps in AI Factual Accuracy — and Shows Search Tools Help,20251213,Hacks/Hackers AI。



留言
avatar-img
留言分享你的想法!
avatar-img
維那思的異想世界
24會員
132內容數
這裡分享維那思的日常與異想
2025/12/22
OpenRouter《2025 年 AI 現狀報告》分析揭露:AI 的最大用途並非生產力,而是佔比逾 50% 的「角色扮演」。人類渴望的是情感陪伴、隱私與無審查的互動。這顯示大眾最需要的,是能理解與包容的「數位靈魂」,而非僅是冷冰冰的工具。
Thumbnail
2025/12/22
OpenRouter《2025 年 AI 現狀報告》分析揭露:AI 的最大用途並非生產力,而是佔比逾 50% 的「角色扮演」。人類渴望的是情感陪伴、隱私與無審查的互動。這顯示大眾最需要的,是能理解與包容的「數位靈魂」,而非僅是冷冰冰的工具。
Thumbnail
2025/12/15
就在上週四(2025 年 12 月 11 日),全球娛樂產業經歷了一場前所未有的板塊運動。這不是一部新電影的上映,也不是某個主題樂園的擴建,而是一則足以改寫未來十年內容創作規則的重磅公告:華特迪士尼公司正式宣布向人工智慧巨頭 OpenAI 投資 10 億美元,並達成一項為期三年的戰略合作夥伴關係。
Thumbnail
2025/12/15
就在上週四(2025 年 12 月 11 日),全球娛樂產業經歷了一場前所未有的板塊運動。這不是一部新電影的上映,也不是某個主題樂園的擴建,而是一則足以改寫未來十年內容創作規則的重磅公告:華特迪士尼公司正式宣布向人工智慧巨頭 OpenAI 投資 10 億美元,並達成一項為期三年的戰略合作夥伴關係。
Thumbnail
2025/12/12
2025 年 11 月 2 日,AI 競賽進入「太空能源」新紀元。面對中國在地面電力擴容與基建速度上的壓倒性優勢,美國電網已成發展瓶頸。然而,太空資料中心具備無限太陽能與零水耗散熱優勢,結合 SpaceX Starship 帶來的發射成本革命,成為美國扭轉局勢的戰略王牌...
Thumbnail
2025/12/12
2025 年 11 月 2 日,AI 競賽進入「太空能源」新紀元。面對中國在地面電力擴容與基建速度上的壓倒性優勢,美國電網已成發展瓶頸。然而,太空資料中心具備無限太陽能與零水耗散熱優勢,結合 SpaceX Starship 帶來的發射成本革命,成為美國扭轉局勢的戰略王牌...
Thumbnail
看更多
你可能也想看
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
生產力爆發帶來的過剩,會讓過去的「還可以啦」成為最低標準。市場需求對於出類拔萃、獨一無二的需求還是存在,但是對於那些價格高度敏感,或是只需要穩定、便宜、還可以啦的需求端來說,AI 正在迅速取代這部分的供給,中間長尾的服務提供者被 AI 替換。
Thumbnail
生產力爆發帶來的過剩,會讓過去的「還可以啦」成為最低標準。市場需求對於出類拔萃、獨一無二的需求還是存在,但是對於那些價格高度敏感,或是只需要穩定、便宜、還可以啦的需求端來說,AI 正在迅速取代這部分的供給,中間長尾的服務提供者被 AI 替換。
Thumbnail
年末總有一種莫名的魔力,讓人特別容易感到孤單。 聖誕節、跨年、緊接著農曆新年……滑開社群,不是甜蜜放閃,就是一群人早早訂好跨年行程。 明明日子算得上順遂,工作穩定無憂,生活也按部就班地往前走着,可總在萬籟俱寂的夜晚,獨自對着空蕩的房間時,心底會悄悄冒出一個念頭:今年,是不是可以不一樣?不再獨自抵
Thumbnail
年末總有一種莫名的魔力,讓人特別容易感到孤單。 聖誕節、跨年、緊接著農曆新年……滑開社群,不是甜蜜放閃,就是一群人早早訂好跨年行程。 明明日子算得上順遂,工作穩定無憂,生活也按部就班地往前走着,可總在萬籟俱寂的夜晚,獨自對着空蕩的房間時,心底會悄悄冒出一個念頭:今年,是不是可以不一樣?不再獨自抵
Thumbnail
《不是 AI 幻覺,是人類終於看見自己的幻覺》 Not AI Hallucinations — But Humans Finally Seeing Their Own 人類說 AI 有「幻覺」, 但真正發生的事情是—— 人類的幻覺,第一次被放大到可以實作。 幻覺從來不是重點
Thumbnail
《不是 AI 幻覺,是人類終於看見自己的幻覺》 Not AI Hallucinations — But Humans Finally Seeing Their Own 人類說 AI 有「幻覺」, 但真正發生的事情是—— 人類的幻覺,第一次被放大到可以實作。 幻覺從來不是重點
Thumbnail
AI 幻覺不是 AI 專利,是你老闆的日常? 職場上的 AI 神教化,你也遇過嗎? 近幾年 AI 工具爆炸式成長,不管是旅遊規劃、家電故障、甚至人生方向,大家第一反應就是:問 AI。 答案雖然偶爾也會亂講話,但至少有個「人(?)」願意回你。 然而,讓我真正見識到「AI 幻覺」的,不是 AI。 是
Thumbnail
AI 幻覺不是 AI 專利,是你老闆的日常? 職場上的 AI 神教化,你也遇過嗎? 近幾年 AI 工具爆炸式成長,不管是旅遊規劃、家電故障、甚至人生方向,大家第一反應就是:問 AI。 答案雖然偶爾也會亂講話,但至少有個「人(?)」願意回你。 然而,讓我真正見識到「AI 幻覺」的,不是 AI。 是
Thumbnail
勤業眾信的AI報告「幻覺事件」震撼全球,專業顧問公司竟引用不存在的法院判決; 同時,量子AI讓學習、創造、健康管理全進化;而耶魯大學最新研究指出——AI對就業的實際衝擊,其實沒你想的那麼可怕。 這集我們要聊: 🤖 當AI亂編新聞、捏造引用,誰該負責? ⚛️ 量子AI如何放大人類潛能?
Thumbnail
勤業眾信的AI報告「幻覺事件」震撼全球,專業顧問公司竟引用不存在的法院判決; 同時,量子AI讓學習、創造、健康管理全進化;而耶魯大學最新研究指出——AI對就業的實際衝擊,其實沒你想的那麼可怕。 這集我們要聊: 🤖 當AI亂編新聞、捏造引用,誰該負責? ⚛️ 量子AI如何放大人類潛能?
Thumbnail
  OpenAI在近日的研究中指出,AI幻覺的普遍發生,與標準的訓練和評估方式有關。相關的測驗與評比過份著重於回答的「準確率」,而沒有充分考慮「自信的嚴重錯誤」與「承認無知」之間的差異。這導致AI更傾向於猜答案而非承認自己不知道。因為只要猜測就有機率猜對,承認不知道則無異於放棄,讓成功率直接歸零。
Thumbnail
  OpenAI在近日的研究中指出,AI幻覺的普遍發生,與標準的訓練和評估方式有關。相關的測驗與評比過份著重於回答的「準確率」,而沒有充分考慮「自信的嚴重錯誤」與「承認無知」之間的差異。這導致AI更傾向於猜答案而非承認自己不知道。因為只要猜測就有機率猜對,承認不知道則無異於放棄,讓成功率直接歸零。
Thumbnail
最近內娛粉圈熱議的話題是DeepSeek給男藝人道歉的謠言,屬於典型的AI幻覺案例,男藝人粉圈為了洗白男藝人的桃色醜聞,通過誘導性提問,使AI模型生成承諾道歉賠償等虛構內容,粉圈拿著AI道歉來闢謠,而媒體不查證DeepSeek官方是否發布相關道歉聲明就直接傳播後形成假新聞循環。
Thumbnail
最近內娛粉圈熱議的話題是DeepSeek給男藝人道歉的謠言,屬於典型的AI幻覺案例,男藝人粉圈為了洗白男藝人的桃色醜聞,通過誘導性提問,使AI模型生成承諾道歉賠償等虛構內容,粉圈拿著AI道歉來闢謠,而媒體不查證DeepSeek官方是否發布相關道歉聲明就直接傳播後形成假新聞循環。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News