AI幻覺的成因與人類社會早就存在的「幻覺文化」

更新於 發佈於 閱讀時間約 5 分鐘

〈AI幻覺的成因與人類社會早就存在的「幻覺文化」〉2025-09-09

 

  我們曾聊過幾次AI幻覺(hallucinations)的問題,指出這個問題關聯到AI模型更在乎「回應效用」而非「真實」的特性。在近日,OpenAI在一篇新發布的研究文章中,具體地對幻覺問題的成因提出了一種--雖然不會讓人太感意外,卻相當具有啟發性的定調。他們認為:AI幻覺的普遍發生,很大程度是因為「標準的訓練與評估方式,獎勵了『猜測』而非『承認不確定性』」。

 

  進一步來說,相關的測驗與評比方式都更加著重於回答的「準確率」,而沒有充分地考慮「自信的嚴重錯誤」與「承認無知」之間的差異。這導致AI更傾向於猜答案而非承認自己不知道。因為只要猜測就有機率猜對,承認不知道則無異於放棄,讓成功率直接歸零。

  

考試導向的測驗,無異於鼓勵幻覺

   文章以詢問一個人的生日為例,AI模型自信地給出了三個不同的日期,但通通錯誤。對於這種完全沒有線索的資訊,模型大可直接承認自己不知道,但當它猜了三個日期,它就有接近百分之一的機率猜中。

 

  當前的評估方式鼓勵它這麼做。尤其,因為「生日」這件事情的隨機性更高,就語言模型「預測下一個字詞」的邏輯來說,任何一個數字出現在句子裡面,幾乎不會影響到句子的流暢程度,所以在整個訓練過程中,也就基本沒有能夠阻止它隨意猜測的錯誤範例。

 

  文章指出,幻覺的問題不是單靠模型的規模或能力就能解決,某些小模型有時反而更容易認清自身限制,譬如一個資料中完全不包含毛利語的小模型,遇到相關問題時可以直接回答「我不知道」,大模型反而必須重新評估自身對問題答案的自信程度。

 

  此外,這也不是在現有模型之上疊加更好的「幻覺評估」就能解決的問題。只要整體的評估方式依舊由「準確率」主導,這種透過猜題來「偷分數」的行為就依然會大量發生。

 

  事實上,真實的問題本來就有許多無法達到高準確率,譬如資料不足、或問題本身具有歧異或政治複雜性。在這些問題上,僅追求準確率的評估,反而會將AI變成神棍,自信地回答本就不應當能回答的問題。

 

  如果我們想要根本性地回應幻覺問題,就必須徹底將所有主要的評估指標重新設計,讓「謙遜地評估自身無知」在設計之初就規則地內建於模型訓練與評估系統,才有機會真正減少語言模型「自信錯誤」發生的比例。

  

人類社會中,幻覺早就大量存在

   在我看來,這篇文章不僅僅點出了AI幻覺的系統性成因,也揭示了人類社會中一直以來存在的問題。有大量人類考試都存在這種鼓勵猜測的狀況。是非題、選擇題不必說,從小我們都聽過老師說「至少不要空白」,我們也經常是用刪去法,消除不合理的選項,從剩下的選項中猜「更像的」來回答。

 

  甚至是看起來沒有標準答案的作文考試,也有專門的作文補習班,傳授各式各樣的「必勝心法」,讓學生可以模式化地寫出更有可能拿高分的「正確文章」。

 

  不只是學校考試鼓勵人們利用各種「考試術」,在申請大學或進入職場時,市面上也存在大量鼓勵人們自我包裝的「面試技巧」。像這樣不關注事實,只在乎成效的華美言說、無法真正讓人確認知識與理解的做題技巧,橫向對照來看,豈不就是AI幻覺在人類社會裡的前身嗎?

 

  正如同OpenAI文章中提出「評估方式應當重新設計」的呼籲,無論是學校還是職場,人類內部的評估與測驗方式也應當要做出全面的調整。我們應該要更有意識地避免給出獎勵「猜測與過度美化」的測驗,才能找到真正適合的人選。

 

  否則,我們的社會只會出現愈來愈多的「假最佳辯士」與「小鎮做題家」,他們把心思與時間放在磨練那些只對測驗有幫助的無用技能,以此來在考試時得到肯定。然而,那些漂亮卻空洞的回答,不就是人類在「升級」成更好版本時,最需要優先淘汰掉的幻覺嗎?



延伸閱讀:
〈AI幻覺/AI說話的幻覺〉
〈先學會,才有能力判斷AI給的答案〉
〈虛構如何成為真實?--AI幻覺與維基假條目事件〉
〈虛假誇大與揣摩上意,你真的想讓人生的成敗被這些事情決定嗎?〉
〈GPT的第一個著名謊言:關於「我不是機器人」的寓言〉
〈無關經驗的輸出:從AI虛構到洗稿抄襲(一):「我沒有虛構,只是做了錯誤引用」〉

留言
avatar-img
留言分享你的想法!
avatar-img
前圖紙的沙龍
109會員
986內容數
一個寫作實踐,關於我看到和思考中的事情。
前圖紙的沙龍的其他內容
2025/08/04
  所以,無論是作為工具協助自己發展興趣、專長,或者偶爾用來玩遊戲。關於網路使用的第一個溝通目標,我認為會是:養成孩子思考與表達「自己為什麼/何種情況需要手機(網路)」的習慣與能力。每一次他說要使用手機或上網時,請他先告訴你他要做什麼、大約會用多久,達成共識才把設備交給他。
2025/08/04
  所以,無論是作為工具協助自己發展興趣、專長,或者偶爾用來玩遊戲。關於網路使用的第一個溝通目標,我認為會是:養成孩子思考與表達「自己為什麼/何種情況需要手機(網路)」的習慣與能力。每一次他說要使用手機或上網時,請他先告訴你他要做什麼、大約會用多久,達成共識才把設備交給他。
2025/07/15
  所以在我看來,面對網路分心源,我們只需要一個核心的策略:把它想成冰箱門,要用的時候才打開。我們可以把每一件需要連網的行為,看作冰箱裡獨立的食物,並且取消掉那個動不動打開冰箱,看看裡面有什麼的預設值。如此一來,網路也可以變成一個不使人分心的好工具。
Thumbnail
2025/07/15
  所以在我看來,面對網路分心源,我們只需要一個核心的策略:把它想成冰箱門,要用的時候才打開。我們可以把每一件需要連網的行為,看作冰箱裡獨立的食物,並且取消掉那個動不動打開冰箱,看看裡面有什麼的預設值。如此一來,網路也可以變成一個不使人分心的好工具。
Thumbnail
2025/07/09
  你可以帶著早晨清爽的心情,先做那些不需要上線的事。最好是等到真的不得不看訊息的時候再看,你愈晚上線,你就有愈長的個人時間不必被遠在天邊的別人打擾。如果你擔心信箱或工作群組裡面沉睡的是需要嚴肅處理的工作訊息,那麼,你更應該把那些訊息留到辦公室裡再好好處理它。
Thumbnail
2025/07/09
  你可以帶著早晨清爽的心情,先做那些不需要上線的事。最好是等到真的不得不看訊息的時候再看,你愈晚上線,你就有愈長的個人時間不必被遠在天邊的別人打擾。如果你擔心信箱或工作群組裡面沉睡的是需要嚴肅處理的工作訊息,那麼,你更應該把那些訊息留到辦公室裡再好好處理它。
Thumbnail
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
當生成式藝術及其展覽所耗費的材料被認定為非藝術後,面對「生成式創作是不是藝術?」的質問,或許,該給出否定的答案。可拋棄並無限次地再製的特性,令每次生成出的內容都是廢棄物,都不是藝術,卻也因此,在美術館內起到過往作品無法達到的成效——將藝術從美感中解放出來。
Thumbnail
當生成式藝術及其展覽所耗費的材料被認定為非藝術後,面對「生成式創作是不是藝術?」的質問,或許,該給出否定的答案。可拋棄並無限次地再製的特性,令每次生成出的內容都是廢棄物,都不是藝術,卻也因此,在美術館內起到過往作品無法達到的成效——將藝術從美感中解放出來。
Thumbnail
深入解析與實例探討 以下利用一些生活中的案例來做說明。的確,在AI時代,人類的創造力與創新能力變得更加關鍵。您的用餐點餐情境,更生動地說明了這兩者之間的差異與關聯。 創造性思維:看見問題,提出新解 定義: 創造性思維是一種能夠產生新穎、獨特且有價值的想法的能力。它涉及到打破常規、連結看似無關的
Thumbnail
深入解析與實例探討 以下利用一些生活中的案例來做說明。的確,在AI時代,人類的創造力與創新能力變得更加關鍵。您的用餐點餐情境,更生動地說明了這兩者之間的差異與關聯。 創造性思維:看見問題,提出新解 定義: 創造性思維是一種能夠產生新穎、獨特且有價值的想法的能力。它涉及到打破常規、連結看似無關的
Thumbnail
這本書探討人類行為的模式與影響,以及合作的策略。書中從古代到現代,探討了人們行為的背後邏輯,以及模式與合作的重要性。正常方式行動也可能帶來出乎意料的後果,在社區裡人們會自動分開,而文明國家的出生率會因為互相模仿急遽下降。
Thumbnail
這本書探討人類行為的模式與影響,以及合作的策略。書中從古代到現代,探討了人們行為的背後邏輯,以及模式與合作的重要性。正常方式行動也可能帶來出乎意料的後果,在社區裡人們會自動分開,而文明國家的出生率會因為互相模仿急遽下降。
Thumbnail
今天來和你分享這本我剛讀完的「AI 世界的底層邏輯與生存法則」。當大家一股腦地想投入AI的領域當中時,這本書的作者程世嘉帶著我們用更高的視角和思維來思考,在AI時代下最重要的底層思考邏輯,找出那些最有價值的核心觀念,幫助我們在這個快速變化的世界當中站穩腳步,釐清未來的方向。
Thumbnail
今天來和你分享這本我剛讀完的「AI 世界的底層邏輯與生存法則」。當大家一股腦地想投入AI的領域當中時,這本書的作者程世嘉帶著我們用更高的視角和思維來思考,在AI時代下最重要的底層思考邏輯,找出那些最有價值的核心觀念,幫助我們在這個快速變化的世界當中站穩腳步,釐清未來的方向。
Thumbnail
在中文世界中,關於AI和人類未來的關係,流傳著三種主要的信仰。這些信仰為我們描繪了不同的未來圖景,而每一種信仰都有其強有力的論證和實例,讓我們能夠深入思考AI的發展將如何影響人類社會。
Thumbnail
在中文世界中,關於AI和人類未來的關係,流傳著三種主要的信仰。這些信仰為我們描繪了不同的未來圖景,而每一種信仰都有其強有力的論證和實例,讓我們能夠深入思考AI的發展將如何影響人類社會。
Thumbnail
這是一篇關於作者歷史系背景以及創作科幻小說的文章,透過文筆,作者試圖用歷史來看到未來,並探討歷史專業在現今社會的角色和價值。
Thumbnail
這是一篇關於作者歷史系背景以及創作科幻小說的文章,透過文筆,作者試圖用歷史來看到未來,並探討歷史專業在現今社會的角色和價值。
Thumbnail
這是關於視野和個人選擇的議題。隨著科技的快速發展,許多過往被視為基礎且必須掌握的技能,如今似乎已逐漸失去其原有的重要性。然而,這些技能的價值,遠不止表面上那麼簡單。 以數學和心算為例,過去這些技能被視為基本且必需的,但在當今時代,隨手可得的科技工具似乎已經取代了它們的位置...
Thumbnail
這是關於視野和個人選擇的議題。隨著科技的快速發展,許多過往被視為基礎且必須掌握的技能,如今似乎已逐漸失去其原有的重要性。然而,這些技能的價值,遠不止表面上那麼簡單。 以數學和心算為例,過去這些技能被視為基本且必需的,但在當今時代,隨手可得的科技工具似乎已經取代了它們的位置...
Thumbnail
早前閱讀的《思想控制的技術》及《平凡的邪惡》均指出一個人若缺乏獨立思考,只聽從他人是非常危險的事。 然而現代人每天面對的網絡世界,總是充斥各種帶風向、假新聞、詭辯和偷換概念的陷阱,實在防不勝防。
Thumbnail
早前閱讀的《思想控制的技術》及《平凡的邪惡》均指出一個人若缺乏獨立思考,只聽從他人是非常危險的事。 然而現代人每天面對的網絡世界,總是充斥各種帶風向、假新聞、詭辯和偷換概念的陷阱,實在防不勝防。
Thumbnail
搬運6年前文章:以「刻意為之」的系統化、複雜邏輯化又帶有詩味的語言行文,反諷當時商管界風行一時的「系統思考(systems thinking)」。以哲學和科學發展視角,批判、諷諭「系統思考」。 --更是為了揶揄六年前把「系統思考」當作圭臬/聖杯的創業團隊而作。 *文後還有後記。
Thumbnail
搬運6年前文章:以「刻意為之」的系統化、複雜邏輯化又帶有詩味的語言行文,反諷當時商管界風行一時的「系統思考(systems thinking)」。以哲學和科學發展視角,批判、諷諭「系統思考」。 --更是為了揶揄六年前把「系統思考」當作圭臬/聖杯的創業團隊而作。 *文後還有後記。
Thumbnail
我們隱隱約約感覺到事情似乎不只如此,但歐美個人主義的「現代科學教」告訴我們,要確認所謂的「現實」,就要透過肉體感知到的是否符合正常和健康,若是,那就是真的。嗎? 揭示謊言:參透過去能預見未來? 我們的信念是根據過去經驗所形成的,這些經驗被不斷地釋放到當下,令我們先入為主的認為...
Thumbnail
我們隱隱約約感覺到事情似乎不只如此,但歐美個人主義的「現代科學教」告訴我們,要確認所謂的「現實」,就要透過肉體感知到的是否符合正常和健康,若是,那就是真的。嗎? 揭示謊言:參透過去能預見未來? 我們的信念是根據過去經驗所形成的,這些經驗被不斷地釋放到當下,令我們先入為主的認為...
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News