方格子 vocus

付費限定

大型語言模型(LLM)幻覺的預防與緩解策略：2025 年技術趨勢研究報告

湯姆士老師

發佈於AI 趨勢研究

2025/12/23 更新2025/12/11 發佈閱讀 44 分鐘

摘要

隨著大型語言模型（Large Language Models, LLMs）在 2024 年至 2025 年間的參數規模與推論能力飛速增長，其在企業級應用與高風險領域的部署面臨著一個核心障礙：幻覺（Hallucination）。本文檔旨在提供一份詳盡的研究報告，深入探討近期針對「降低」幻覺所提出的新技術、演算法革新及學術論文。報告首先重新定義了幻覺的分類學，特別是針對代理（Agentic）系統的新型態幻覺；接著，深入剖析了目前被視為「最佳解」的混合架構，包括微軟的 GraphRAG、推理時干預（Inference-Time Intervention, ITI）及分層對比解碼（DoLa）；最後，基於 Vectara、HalluLens 及 Artificial Analysis 等權威基準，量化分析了當前最先進模型（如 Gemini 3 Pro, GPT-5, Claude 3.5/4.5）的準確率與幻覺率。分析顯示，雖然單一模型在特定任務上的事實一致性已可達 96% 以上，但在廣泛的知識檢索與推理任務中，依賴檢索增強生成（RAG）與校準訓練（Calibration Training）仍是不可或缺的防線。

1. 幻覺的本質與演變：從事實錯誤到代理失控

在探討解決方案之前，必須先理解 2025 年學術界對於「幻覺」定義的典範轉移。早期的研究僅將幻覺視為事實性錯誤，但隨著模型向代理（Agent）化發展，幻覺的定義已擴展至涵蓋邏輯推理斷裂、目標誤解及記憶篡改等多維度失效。

1.1 幻覺分類學的重構：HalluLens 與內外之別

根據 2025 年發布的 HalluLens 基準測試框架，幻覺被嚴謹地劃分為「內在幻覺」（Intrinsic Hallucination）與「外在幻覺」（Extrinsic Hallucination），這一區分對於選擇緩解策略至關重要 ^[1]。

內在幻覺（Intrinsic Hallucination）：指模型生成的內容與當前提供的輸入上下文（Input Context）相矛盾。例如，使用者提供了一份財報顯示「淨利潤為 5 億美元」，模型卻總結為「虧損 2 億美元」。這類錯誤反映了模型在邏輯推理、注意力機制或指令遵循上的失敗。
外在幻覺（Extrinsic Hallucination）：指模型生成的內容無法由輸入上下文驗證，且與現實世界的客觀事實或預訓練語料庫相悖。這通常發生在模型試圖「填補空白」時。例如，在沒有相關背景資料的情況下，模型自信地編造了某個不存在的歷史事件細節。外在幻覺更難以檢測，因為它需要外部知識源（Oracle）進行驗證。

這一分類揭示了當前緩解技術的分野：RAG 技術主要解決外在幻覺，通過引入外部知識來填補空白；而推理時干預（如 DoLa）與校準訓練（如 Rewarding Doubt）則更多地針對內在幻覺與模型自信度的校準。

1.2 代理系統中的幻覺新變種

隨著 LLM 被整合進自主代理系統（Agentic Systems），幻覺的形態變得更加複雜。2025 年的研究指出，代理幻覺不再僅僅是語言錯誤，而是涉及感知、記憶與行動模組的連鎖失效 ^[3]。

這種分類強調了單純依靠「提示工程」（Prompt Engineering）已不足以解決問題。現代的最佳解必須深入到模型的推理過程與架構層面。

1.3 校準問題：自信與能力的落差

2025 年的研究核心觀點之一是：幻覺本質上是一個校準（Calibration）問題。理想的模型應該具備「蘇格拉底式的智慧」——即知道自己不知道什麼。然而，當前的訓練機制往往獎勵自信的猜測。

OpenAI 在 2025 年 9 月的論文中指出，現有的預訓練與 RLHF（人類回饋強化學習）目標函數，傾向於獎勵那些看起來合理且自信的回答，而非誠實地表達不確定性 ^[5]。這導致了所謂的「自信-能力落差」（Confidence-Competence Gap）。例如，在 Gemini 3 Pro 的評測中發現，該模型雖然知識淵博，但在面對它不知道的問題時，往往選擇自信地編造答案，導致其在特定的可靠性指標（如 Omniscience Index）上得分偏低 ^[6]。這表明，降低幻覺的關鍵不僅在於增加知識，更在於讓模型學會「拒絕回答」（Abstention）。

以行動支持創作者！付費即可解鎖

本篇內容共 17301 字、0 則留言，僅發佈於AI 趨勢研究你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

留言

湯姆士老師的創作空間

113會員

26內容數

以 AI 研究與教育創新為核心，我在這裡分享創作、教學與實驗成果。希望透過作品與想法，陪伴每位學習者與創作者一起探索、一起提問、一起把靈感變成可能。歡迎走進這個充滿好奇與創造力的空間，一起讓未來更靠近我們一點。

你可能也想看

LBB 嚕嗶啵的嗶嗶啵啵

淺談人工智慧，對立或統一的機器與人

人工智慧離我們並不遙遠，舉凡Siri、Google assistant這些語音助理在現代智慧型手機早已佔據重要地位，為手機主人撥打電話或查資料只是基本功能，在科技日新月異的變化下，不僅到了能夠辨識聲音是否為機主本人，甚至能夠和人對話，它們便是人工智慧的最簡單的型態。

2018/10/06

2018/10/06

前幾天在看老高與小茉(Mr & Mrs Gao)的影片，影片的標題很有趣，也就是「人類的使命已然完成」。什麼叫做人類的使命已然完成呢？人類又有什麼使命呢？這就要從一個很小很小(細胞等級)的故事開始說起。

2023/04/30

2023/04/30

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

賢弟的期貨選擇權外匯保證金暴力獲利引擎

連AI人工智慧都無法取代的技能跟知識，你學會就成為職場少數贏家，邁入菁英之路

我們的任務是傳授頂尖幕僚的危機處理與兵棋推演的專業知識。也包含培養你具備國際化的視野與中國重要議題的知識，幫自己把關國內外資產與評估風險。雖然在方格子，我是把付費專欄名稱寫為「決策制定與風險管理技能，連AI都取代不了你的職場技能與加薪術」，但是核心內容一樣，我只是把名稱換成大家可能比就熟悉的用詞讓大

#人工智慧#危機#決策

2023/03/13

賢弟的期貨選擇權外匯保證金暴力獲利引擎

連AI人工智慧都無法取代的技能跟知識，你學會就成為職場少數贏家，邁入菁英之路

#人工智慧#危機#決策

2023/03/13

自由豐盛社群 Glowing Up

人工智慧要變身哆啦A夢啦！五個超酷 AI 工具讓你秒變超級創作者！

各位創意達人、懶鬼（誤），看這裡看這裡！今天要分享五個超酷的 AI 工具，讓大家通通變身哆啦A夢，用人工智慧幫你完成各種不可能的任務！

#免費諮詢#爆紅影片#註冊商標

2024/02/20

自由豐盛社群 Glowing Up

人工智慧要變身哆啦A夢啦！五個超酷 AI 工具讓你秒變超級創作者！

各位創意達人、懶鬼（誤），看這裡看這裡！今天要分享五個超酷的 AI 工具，讓大家通通變身哆啦A夢，用人工智慧幫你完成各種不可能的任務！

#免費諮詢#爆紅影片#註冊商標

2024/02/20

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

戰情室 PLUS

人工智慧的多重宇宙 + 矽谷巨頭搶人大戰- 深讀《AI製造商沒說的祕密》- 戰情室研究室#15

站在大廳寬闊空間一角的電梯旁邊，楊立昆告訴Sutskever 他犯了嚴重的錯誤，並且列舉出長串理由。OpenAI 的研究人員都太年輕了；這所實驗室缺少像他這樣有經驗的專家；他不像谷歌和臉書那麽有錢，而且它的非營利模式不會帶進資金；它確實吸引了數位頂尖的專家，但是長期看來無法爭取到更優秀的人才

#專屬直播

2023/03/16

戰情室 PLUS

人工智慧的多重宇宙 + 矽谷巨頭搶人大戰- 深讀《AI製造商沒說的祕密》- 戰情室研究室#15

#專屬直播

2023/03/16

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Hugo的科學與信仰之旅

【人工智慧】AI寫作為什麼讀起來不自然？研究發現常見句法模式

美國東北大學的研究發現，AI生成的文字常呈現高度重複的句法模式，使其讀起來較不自然。研究團隊分析多種AI生成的文本，發現AI的句法結構源於訓練數據，且在電影評論、新聞等創意性文本中重複率高於人類。此研究為理解AI寫作特徵提供新工具，有助於識別AI生成的文本。

#人工智慧

2024/10/31

Hugo的科學與信仰之旅

【人工智慧】AI寫作為什麼讀起來不自然？研究發現常見句法模式

#人工智慧

2024/10/31

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

識商的沙龍

人工智慧取代人類五階段？

本文延續先前刊登於《服務研究期刊》（Journal of Service Research）的論文《使用人工智慧執行服務》（Artificial Intelligence in Service），該論文建立了四種AI類型的框架，包括機械型AI、分析型AI、直覺型AI和共鳴型AI。基於這個框架，我們將

#人工智慧

2024/01/09