大型語言模型中的幻覺問題

更新於 發佈於 閱讀時間約 3 分鐘

大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。我認為幻覺可以分成兩種類型:

  1. 上下文內幻覺:模型輸出不與輸入上下文中的內容一致。
  2. 外在幻覺:模型輸出不以預訓練資料集為基礎。我們可試圖確保模型輸出是基於事實的,並可以通過外部世界知識進行驗證。同樣重要的是,當模型不知道某個事實時,它應該表現出來。


為了避免幻覺,大型語言模型需要(1)基於事實,(2)在合適的情況下承認不知道答案。


什麼導致幻覺?

常見的原因存在兩個地方:1. 預訓練資料問題 2. 微調新知識


預訓練資料問題

預訓練資料集的資料數量很大,因為這些資料集被假設代表世界上所有可用形式的知識。從網路擷取的資料是最常見的資料來源,因此不可避免的會出現過時、缺失或不正確的訊息。由於模型可能通過簡單地最大化對數相似性來錯誤地記憶這些訊息,因此我們會預期模型會犯錯。


微調新知識

通過監督微調和RLHF(基於人類反饋的強化學習)來微調預訓練的LLM是提高模型某些能力(如遵循指令)的常見技術。在微調階段引入新知識是難以避免的。微調通常消耗的計算資源要少得多,這使得模型是否能通過小規模微調可靠地學習新知識成為一個值得討論的問題。Gekhman等人(2024年)[1] 研究了微調LLM以學習新知識是否會鼓勵幻覺的問題。他們發現:(1)與模型已有知識一致的例子相比,LLM學習包含新知識的微調例子的速度更慢;(2)一旦最終學習了包含新知識的例子,它們會增加模型產生幻覺的傾向。


避免幻覺

了解產生幻覺的原因後,學者們開始思考如何避免或減少幻覺的產生。

GopherCite(Menick等人,2022年)[2] 使用搜索引擎取得佐證材料並教導模型提供參考考資料。其進行監督式微調來引導模型,並且應用基於人類偏好的強化學習來訓練。但與依賴複製人類示範行為的WebGPT不同,GopherCite透過少量樣本提示來生成示例,每次生成都使用相關文件填充上下文,然後使用獎勵模型來評比哪些模型輸出是最佳的。

FAVA(「使用增強知識進行事實性驗證」;Mishra等人,2024年)[3] 檢索相關文檔,然後編輯模型輸出以避免幻覺錯誤。FAVA模型由檢索器 $\mathcal{M}\text{ret}$ 和編輯器 $\mathcal{M}\text{edit}$ 組成。


Reference

  1. https://arxiv.org/abs/2405.05904
  2. https://arxiv.org/abs/2203.11147
  3. https://arxiv.org/abs/2401.06855
留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
1會員
42內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
使用大型語言模型你需要知道的事
Thumbnail
使用大型語言模型你需要知道的事
Thumbnail
最近使用AI分析了一些現象,發現在整理某些實體數據上來說AI確實有用。也順便用AI造了一篇小說。但是也發現了在某些情況下AI不但難以推論一些能正常推論的東西。甚至有可能產生與實質情況差異甚大,甚至毫無邏輯與證據的結果。 以下說說幾個使AI無法產生接近更客觀或是有效資訊/統整的原因。
Thumbnail
最近使用AI分析了一些現象,發現在整理某些實體數據上來說AI確實有用。也順便用AI造了一篇小說。但是也發現了在某些情況下AI不但難以推論一些能正常推論的東西。甚至有可能產生與實質情況差異甚大,甚至毫無邏輯與證據的結果。 以下說說幾個使AI無法產生接近更客觀或是有效資訊/統整的原因。
Thumbnail
這篇文章提供了關於大型語言模型 (LLMs) 訓練和使用的深入綜述,涵蓋數據收集、標註、訓練的三個階段,以及模型幻覺、中間結果和參數知識等議題。此外,文章還探討了不同訓練方法 (如 SFT 和 RL) 的優缺點,並提出使用LLMs的建議,展望了未來LLMs的多模態應用和任務代理能力。
Thumbnail
這篇文章提供了關於大型語言模型 (LLMs) 訓練和使用的深入綜述,涵蓋數據收集、標註、訓練的三個階段,以及模型幻覺、中間結果和參數知識等議題。此外,文章還探討了不同訓練方法 (如 SFT 和 RL) 的優缺點,並提出使用LLMs的建議,展望了未來LLMs的多模態應用和任務代理能力。
Thumbnail
Underfitting(欠擬合) 可能原因: 模型選擇過於簡單,表現力不足(如線性模型處理高度非線性問題)。 模型表現不足,無法捕捉數據中的模式或規律。 通常是因為模型過於簡單(如使用太少的參數或低容量模型)或訓練時間不足。 Overfitting(過擬合) 可能原因:
Thumbnail
Underfitting(欠擬合) 可能原因: 模型選擇過於簡單,表現力不足(如線性模型處理高度非線性問題)。 模型表現不足,無法捕捉數據中的模式或規律。 通常是因為模型過於簡單(如使用太少的參數或低容量模型)或訓練時間不足。 Overfitting(過擬合) 可能原因:
Thumbnail
在現今科技日新月異的時代,像ChatGPT這樣的大語言模型(LLM)已經成為許多人日常生活和工作的輔助工具。然而,隨著這些技術的普及,對於它們的誤解也層出不窮,這使得一些使用者對這些工具的期待與實際效果脫節,最近在網路上看到兩個實際案例,藉此分享一下一般常見的誤解。
Thumbnail
在現今科技日新月異的時代,像ChatGPT這樣的大語言模型(LLM)已經成為許多人日常生活和工作的輔助工具。然而,隨著這些技術的普及,對於它們的誤解也層出不窮,這使得一些使用者對這些工具的期待與實際效果脫節,最近在網路上看到兩個實際案例,藉此分享一下一般常見的誤解。
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
Thumbnail
隨著生成式AI的興起,AI幻覺的問題日漸受到重視。AI幻覺指的是AI生成內容中的虛構與現實重疊現象,造成錯誤資訊的擴散。造成這一現象的原因包括訓練數據不足、模型缺失及惡意資訊注入。
Thumbnail
隨著生成式AI的興起,AI幻覺的問題日漸受到重視。AI幻覺指的是AI生成內容中的虛構與現實重疊現象,造成錯誤資訊的擴散。造成這一現象的原因包括訓練數據不足、模型缺失及惡意資訊注入。
Thumbnail
ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。今天會先解釋什麼是語言模型,想要做到的是哪些事情。
Thumbnail
ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。今天會先解釋什麼是語言模型,想要做到的是哪些事情。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News