AI幻覺的成因與人類社會早就存在的「幻覺文化」

2025/09/09 更新2025/09/09 發佈閱讀 5 分鐘

〈AI幻覺的成因與人類社會早就存在的「幻覺文化」〉2025-09-09

　　我們曾聊過幾次AI幻覺（hallucinations）的問題，指出這個問題關聯到AI模型更在乎「回應效用」而非「真實」的特性。在近日，OpenAI在一篇新發布的研究文章中，具體地對幻覺問題的成因提出了一種－－雖然不會讓人太感意外，卻相當具有啟發性的定調。他們認為：AI幻覺的普遍發生，很大程度是因為「標準的訓練與評估方式，獎勵了『猜測』而非『承認不確定性』」。

　　進一步來說，相關的測驗與評比方式都更加著重於回答的「準確率」，而沒有充分地考慮「自信的嚴重錯誤」與「承認無知」之間的差異。這導致AI更傾向於猜答案而非承認自己不知道。因為只要猜測就有機率猜對，承認不知道則無異於放棄，讓成功率直接歸零。

考試導向的測驗，無異於鼓勵幻覺

　　文章以詢問一個人的生日為例，AI模型自信地給出了三個不同的日期，但通通錯誤。對於這種完全沒有線索的資訊，模型大可直接承認自己不知道，但當它猜了三個日期，它就有接近百分之一的機率猜中。

　　當前的評估方式鼓勵它這麼做。尤其，因為「生日」這件事情的隨機性更高，就語言模型「預測下一個字詞」的邏輯來說，任何一個數字出現在句子裡面，幾乎不會影響到句子的流暢程度，所以在整個訓練過程中，也就基本沒有能夠阻止它隨意猜測的錯誤範例。

　　文章指出，幻覺的問題不是單靠模型的規模或能力就能解決，某些小模型有時反而更容易認清自身限制，譬如一個資料中完全不包含毛利語的小模型，遇到相關問題時可以直接回答「我不知道」，大模型反而必須重新評估自身對問題答案的自信程度。

　　此外，這也不是在現有模型之上疊加更好的「幻覺評估」就能解決的問題。只要整體的評估方式依舊由「準確率」主導，這種透過猜題來「偷分數」的行為就依然會大量發生。

　　事實上，真實的問題本來就有許多無法達到高準確率，譬如資料不足、或問題本身具有歧異或政治複雜性。在這些問題上，僅追求準確率的評估，反而會將AI變成神棍，自信地回答本就不應當能回答的問題。

　　如果我們想要根本性地回應幻覺問題，就必須徹底將所有主要的評估指標重新設計，讓「謙遜地評估自身無知」在設計之初就規則地內建於模型訓練與評估系統，才有機會真正減少語言模型「自信錯誤」發生的比例。

人類社會中，幻覺早就大量存在

　　在我看來，這篇文章不僅僅點出了AI幻覺的系統性成因，也揭示了人類社會中一直以來存在的問題。有大量人類考試都存在這種鼓勵猜測的狀況。是非題、選擇題不必說，從小我們都聽過老師說「至少不要空白」，我們也經常是用刪去法，消除不合理的選項，從剩下的選項中猜「更像的」來回答。

　　甚至是看起來沒有標準答案的作文考試，也有專門的作文補習班，傳授各式各樣的「必勝心法」，讓學生可以模式化地寫出更有可能拿高分的「正確文章」。

　　不只是學校考試鼓勵人們利用各種「考試術」，在申請大學或進入職場時，市面上也存在大量鼓勵人們自我包裝的「面試技巧」。像這樣不關注事實，只在乎成效的華美言說、無法真正讓人確認知識與理解的做題技巧，橫向對照來看，豈不就是AI幻覺在人類社會裡的前身嗎？

　　正如同OpenAI文章中提出「評估方式應當重新設計」的呼籲，無論是學校還是職場，人類內部的評估與測驗方式也應當要做出全面的調整。我們應該要更有意識地避免給出獎勵「猜測與過度美化」的測驗，才能找到真正適合的人選。

　　否則，我們的社會只會出現愈來愈多的「假最佳辯士」與「小鎮做題家」，他們把心思與時間放在磨練那些只對測驗有幫助的無用技能，以此來在考試時得到肯定。然而，那些漂亮卻空洞的回答，不就是人類在「升級」成更好版本時，最需要優先淘汰掉的幻覺嗎？

延伸閱讀：
〈AI幻覺／AI說話的幻覺〉
〈先學會，才有能力判斷AI給的答案〉
〈虛構如何成為真實？－－AI幻覺與維基假條目事件〉
〈虛假誇大與揣摩上意，你真的想讓人生的成敗被這些事情決定嗎？〉
〈GPT的第一個著名謊言：關於「我不是機器人」的寓言〉
〈無關經驗的輸出：從AI虛構到洗稿抄襲（一）：「我沒有虛構，只是做了錯誤引用」〉

留言

留言分享你的想法！

前圖紙的沙龍

119會員

1.0K內容數

一個寫作實踐，關於我看到和思考中的事情。

前圖紙的沙龍的其他內容

2025/08/04

如何陪伴孩子進入網路世界？（四）：溝通不是為了管控，而是協助他學習如何使用

　　所以，無論是作為工具協助自己發展興趣、專長，或者偶爾用來玩遊戲。關於網路使用的第一個溝通目標，我認為會是：養成孩子思考與表達「自己為什麼／何種情況需要手機（網路）」的習慣與能力。每一次他說要使用手機或上網時，請他先告訴你他要做什麼、大約會用多久，達成共識才把設備交給他。

2025/08/04

如何陪伴孩子進入網路世界？（四）：溝通不是為了管控，而是協助他學習如何使用

2025/07/15

《生時間》「雷射」篇（六）：把網路當成冰箱，要用什麼才開門去拿

　　所以在我看來，面對網路分心源，我們只需要一個核心的策略：把它想成冰箱門，要用的時候才打開。我們可以把每一件需要連網的行為，看作冰箱裡獨立的食物，並且取消掉那個動不動打開冰箱，看看裡面有什麼的預設值。如此一來，網路也可以變成一個不使人分心的好工具。

2025/07/15

《生時間》「雷射」篇（六）：把網路當成冰箱，要用什麼才開門去拿

2025/07/09

《生時間》「雷射」篇（四）：活在線下，別讓訊息與分頁吃掉你的時間

　　你可以帶著早晨清爽的心情，先做那些不需要上線的事。最好是等到真的不得不看訊息的時候再看，你愈晚上線，你就有愈長的個人時間不必被遠在天邊的別人打擾。如果你擔心信箱或工作群組裡面沉睡的是需要嚴肅處理的工作訊息，那麼，你更應該把那些訊息留到辦公室裡再好好處理它。

2025/07/09

《生時間》「雷射」篇（四）：活在線下，別讓訊息與分頁吃掉你的時間

#AI 的其他內容

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

張紹宏

Gemini Pro 學生方案怎麼一直申請失敗? 原來是少做了「這件事」!

你可能也想看

Oren

咖啡控的0元回血實驗：加入蝦皮分潤計畫後，我的1111購物車能回本嗎？

這篇文章是一位咖啡愛好者分享他在雙11前的購物規劃。他不僅推薦了自己喜愛的咖啡豆品牌（如李董、音樂家系列）與手沖器材，還分享了實用的挑豆技巧。同時，他記錄了一項個人實驗：剛加入「蝦皮分潤計畫」，想測試透過分享真心喜愛的商品，是否能為自己的咖啡開銷「回血」。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Oren

咖啡控的0元回血實驗：加入蝦皮分潤計畫後，我的1111購物車能回本嗎？

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

吃喝玩樂皮丹媽媽(๑´ڡ`๑)

完整出國行李清單｜出國旅行必備物品＆蝦皮購物攻略

出國旅行時，準備充分的行李能讓旅程更加輕鬆愉快！本文整理了大人旅行的全方位行李清單，從護照、信用卡到各種旅行好物一應俱全。特別是防盜小物、瞬熱熱水壺和過濾蓮蓬頭等必備單品，讓你的旅行更舒適、安全。此外，還介紹了蝦皮分潤計劃，讓你在購物的同時還能輕鬆賺取分潤，無論是準備行李還是購物分享，都是不錯的選擇

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05