vocus logo

方格子 vocus

付費限定

大型語言模型(LLM)幻覺的預防與緩解策略:2025 年技術趨勢研究報告

更新 發佈閱讀 44 分鐘
vocus|新世代的創作平台

摘要

隨著大型語言模型(Large Language Models, LLMs)在 2024 年至 2025 年間的參數規模與推論能力飛速增長,其在企業級應用與高風險領域的部署面臨著一個核心障礙:幻覺(Hallucination)。本文檔旨在提供一份詳盡的研究報告,深入探討近期針對「降低」幻覺所提出的新技術、演算法革新及學術論文。報告首先重新定義了幻覺的分類學,特別是針對代理(Agentic)系統的新型態幻覺;接著,深入剖析了目前被視為「最佳解」的混合架構,包括微軟的 GraphRAG、推理時干預(Inference-Time Intervention, ITI)及分層對比解碼(DoLa);最後,基於 Vectara、HalluLens 及 Artificial Analysis 等權威基準,量化分析了當前最先進模型(如 Gemini 3 Pro, GPT-5, Claude 3.5/4.5)的準確率與幻覺率。分析顯示,雖然單一模型在特定任務上的事實一致性已可達 96% 以上,但在廣泛的知識檢索與推理任務中,依賴檢索增強生成(RAG)與校準訓練(Calibration Training)仍是不可或缺的防線。


1. 幻覺的本質與演變:從事實錯誤到代理失控

在探討解決方案之前,必須先理解 2025 年學術界對於「幻覺」定義的典範轉移。早期的研究僅將幻覺視為事實性錯誤,但隨著模型向代理(Agent)化發展,幻覺的定義已擴展至涵蓋邏輯推理斷裂、目標誤解及記憶篡改等多維度失效。

1.1 幻覺分類學的重構:HalluLens 與內外之別

根據 2025 年發布的 HalluLens 基準測試框架,幻覺被嚴謹地劃分為「內在幻覺」(Intrinsic Hallucination)與「外在幻覺」(Extrinsic Hallucination),這一區分對於選擇緩解策略至關重要 [1]

  • 內在幻覺(Intrinsic Hallucination): 指模型生成的內容與當前提供的輸入上下文(Input Context)相矛盾。例如,使用者提供了一份財報顯示「淨利潤為 5 億美元」,模型卻總結為「虧損 2 億美元」。這類錯誤反映了模型在邏輯推理、注意力機制或指令遵循上的失敗。
  • 外在幻覺(Extrinsic Hallucination): 指模型生成的內容無法由輸入上下文驗證,且與現實世界的客觀事實或預訓練語料庫相悖。這通常發生在模型試圖「填補空白」時。例如,在沒有相關背景資料的情況下,模型自信地編造了某個不存在的歷史事件細節。外在幻覺更難以檢測,因為它需要外部知識源(Oracle)進行驗證。

這一分類揭示了當前緩解技術的分野:RAG 技術主要解決外在幻覺,通過引入外部知識來填補空白;而推理時干預(如 DoLa)與校準訓練(如 Rewarding Doubt)則更多地針對內在幻覺與模型自信度的校準。

1.2 代理系統中的幻覺新變種

隨著 LLM 被整合進自主代理系統(Agentic Systems),幻覺的形態變得更加複雜。2025 年的研究指出,代理幻覺不再僅僅是語言錯誤,而是涉及感知、記憶與行動模組的連鎖失效 [3]

vocus|新世代的創作平台

這種分類強調了單純依靠「提示工程」(Prompt Engineering)已不足以解決問題。現代的最佳解必須深入到模型的推理過程與架構層面。

1.3 校準問題:自信與能力的落差

2025 年的研究核心觀點之一是:幻覺本質上是一個校準(Calibration)問題。理想的模型應該具備「蘇格拉底式的智慧」——即知道自己不知道什麼。然而,當前的訓練機制往往獎勵自信的猜測。

OpenAI 在 2025 年 9 月的論文中指出,現有的預訓練與 RLHF(人類回饋強化學習)目標函數,傾向於獎勵那些看起來合理且自信的回答,而非誠實地表達不確定性 [5]。這導致了所謂的「自信-能力落差」(Confidence-Competence Gap)。例如,在 Gemini 3 Pro 的評測中發現,該模型雖然知識淵博,但在面對它不知道的問題時,往往選擇自信地編造答案,導致其在特定的可靠性指標(如 Omniscience Index)上得分偏低 [6]。這表明,降低幻覺的關鍵不僅在於增加知識,更在於讓模型學會「拒絕回答」(Abstention)。

以行動支持創作者!付費即可解鎖
本篇內容共 17301 字、0 則留言,僅發佈於AI 趨勢研究你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
湯姆士老師的創作空間
113會員
26內容數
以 AI 研究與教育創新為核心,我在這裡分享創作、教學與實驗成果。希望透過作品與想法,陪伴每位學習者與創作者一起探索、一起提問、一起把靈感變成可能。歡迎走進這個充滿好奇與創造力的空間,一起讓未來更靠近我們一點。
你可能也想看
Thumbnail
人工智慧離我們並不遙遠,舉凡Siri、Google assistant這些語音助理在現代智慧型手機早已佔據重要地位,為手機主人撥打電話或查資料只是基本功能,在科技日新月異的變化下,不僅到了能夠辨識聲音是否為機主本人,甚至能夠和人對話,它們便是人工智慧的最簡單的型態。
Thumbnail
人工智慧離我們並不遙遠,舉凡Siri、Google assistant這些語音助理在現代智慧型手機早已佔據重要地位,為手機主人撥打電話或查資料只是基本功能,在科技日新月異的變化下,不僅到了能夠辨識聲音是否為機主本人,甚至能夠和人對話,它們便是人工智慧的最簡單的型態。
Thumbnail
前幾天在看老高與小茉(Mr & Mrs Gao)的影片, 影片的標題很有趣,也就是「人類的使命已然完成」。 什麼叫做人類的使命已然完成呢?人類又有什麼使命呢? 這就要從一個很小很小(細胞等級)的故事開始說起。
Thumbnail
前幾天在看老高與小茉(Mr & Mrs Gao)的影片, 影片的標題很有趣,也就是「人類的使命已然完成」。 什麼叫做人類的使命已然完成呢?人類又有什麼使命呢? 這就要從一個很小很小(細胞等級)的故事開始說起。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我們的任務是傳授頂尖幕僚的危機處理與兵棋推演的專業知識。也包含培養你具備國際化的視野與中國重要議題的知識,幫自己把關國內外資產與評估風險。雖然在方格子,我是把付費專欄名稱寫為「決策制定與風險管理技能,連AI都取代不了你的職場技能與加薪術」,但是核心內容一樣,我只是把名稱換成大家可能比就熟悉的用詞讓大
Thumbnail
我們的任務是傳授頂尖幕僚的危機處理與兵棋推演的專業知識。也包含培養你具備國際化的視野與中國重要議題的知識,幫自己把關國內外資產與評估風險。雖然在方格子,我是把付費專欄名稱寫為「決策制定與風險管理技能,連AI都取代不了你的職場技能與加薪術」,但是核心內容一樣,我只是把名稱換成大家可能比就熟悉的用詞讓大
Thumbnail
各位創意達人、懶鬼(誤),看這裡看這裡! 今天要分享五個超酷的 AI 工具,讓大家通通變身哆啦A夢,用人工智慧幫你完成各種不可能的任務!
Thumbnail
各位創意達人、懶鬼(誤),看這裡看這裡! 今天要分享五個超酷的 AI 工具,讓大家通通變身哆啦A夢,用人工智慧幫你完成各種不可能的任務!
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
站在大廳寬闊空間一角的電梯旁邊,楊立昆告訴Sutskever 他犯了嚴重的錯誤,並且列舉出長串理由。OpenAI 的研究人員都太年輕了;這所實驗室缺少像他這樣有經驗的專家;他不像谷歌和臉書那麽有錢,而且它的非營利模式不會帶進資金;它確實吸引了數位頂尖的專家,但是長期看來無法爭取到更優秀的人才
Thumbnail
站在大廳寬闊空間一角的電梯旁邊,楊立昆告訴Sutskever 他犯了嚴重的錯誤,並且列舉出長串理由。OpenAI 的研究人員都太年輕了;這所實驗室缺少像他這樣有經驗的專家;他不像谷歌和臉書那麽有錢,而且它的非營利模式不會帶進資金;它確實吸引了數位頂尖的專家,但是長期看來無法爭取到更優秀的人才
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
美國東北大學的研究發現,AI生成的文字常呈現高度重複的句法模式,使其讀起來較不自然。研究團隊分析多種AI生成的文本,發現AI的句法結構源於訓練數據,且在電影評論、新聞等創意性文本中重複率高於人類。此研究為理解AI寫作特徵提供新工具,有助於識別AI生成的文本。
Thumbnail
美國東北大學的研究發現,AI生成的文字常呈現高度重複的句法模式,使其讀起來較不自然。研究團隊分析多種AI生成的文本,發現AI的句法結構源於訓練數據,且在電影評論、新聞等創意性文本中重複率高於人類。此研究為理解AI寫作特徵提供新工具,有助於識別AI生成的文本。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文延續先前刊登於《服務研究期刊》(Journal of Service Research)的論文《使用人工智慧執行服務》(Artificial Intelligence in Service),該論文建立了四種AI類型的框架,包括機械型AI、分析型AI、直覺型AI和共鳴型AI。基於這個框架,我們將
Thumbnail
本文延續先前刊登於《服務研究期刊》(Journal of Service Research)的論文《使用人工智慧執行服務》(Artificial Intelligence in Service),該論文建立了四種AI類型的框架,包括機械型AI、分析型AI、直覺型AI和共鳴型AI。基於這個框架,我們將
Thumbnail
介紹人工智慧在教育中的應用 人工智慧(AI)技術在教育領域中的應用正成為一個熱門話題。AI技術可以幫助學生更好地理解學科知識,提高學習效率。同時,它也可以幫助教師更好地管理課程和評估學生的學習情況。但是,AI技術的應用也存在一些負面影響,例如會讓學生失去與老師和同學之間的互動,也可能會導致學生的隱私
Thumbnail
介紹人工智慧在教育中的應用 人工智慧(AI)技術在教育領域中的應用正成為一個熱門話題。AI技術可以幫助學生更好地理解學科知識,提高學習效率。同時,它也可以幫助教師更好地管理課程和評估學生的學習情況。但是,AI技術的應用也存在一些負面影響,例如會讓學生失去與老師和同學之間的互動,也可能會導致學生的隱私
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News