AI幻覺(AI Hallucination)是指人工智慧(AI)生成的內容包含錯誤、不準確或完全虛構的資訊,但卻表現得像是真實可靠的答案。這種現象通常發生在大型語言模型(LLM)或其他生成式AI系統中,並可能導致誤導性的結果。
AI幻覺的主要類型
- 捏造的事實:AI可能會生成看似合理但完全不存在的資訊。例如,編造虛假的人物、地點、事件或學術研究。
- 錯誤引用:AI可能提供不存在的文獻、來源或研究,導致用戶無法驗證相關資訊。
- 誤解語境:AI可能錯誤地解釋使用者的問題,導致回應偏離原始意圖。
- 邏輯錯誤:AI可能會混合不相關的概念,使其看起來合理,但實際上並不成立。
- 語法或語意錯誤:即使回應在語法上正確,它仍然可能在語意上無法被理解或不符合背景知識。
造成AI幻覺的原因
- 訓練數據的限制:AI的知識來源於已訓練的資料,若訓練數據不完整或有偏誤,就可能產生錯誤內容。
- 機率驅動的回答機制:LLM使用機率來生成語言,因此有時候可能會「猜測」答案而不是提供準確資訊。
- 缺乏即時驗證:AI模型通常無法直接存取最新的資料或進行即時查證,使得幻覺問題更嚴重。
- 上下文錯誤解析:如果AI無法正確理解用戶的提問,它可能會根據類似的內容猜測答案,導致幻覺。
如何減少AI幻覺
- 驗證資訊:對AI提供的數據進行交叉比對,使用可靠來源確認其真實性。
- 提供清晰的問題:讓AI更精確地理解提問的內容,減少錯誤推測的可能性。
- 使用AI輔助工具:選擇具有檢索功能或能引用外部資料的AI系統,以增強準確性。
- 結合人類審查:不完全依賴AI,人工審查仍然是確保資訊準確性的關鍵。
這裡有幾個真實發生過的AI幻覺案例,展示大型語言模型在不同情境下可能出錯的方式:
1. 捏造的學術研究
在某些情境下,LLM可能會生成完全不存在的學術論文。例如,某些使用者要求AI提供某個領域的研究報告,AI可能會編造一篇論文,包含虛假的作者、期刊名稱和DOI號碼,使其看起來像是可驗證的資料,但實際上這些研究並不存在。
2. 錯誤的醫學建議
有使用者曾詢問AI關於某種疾病的治療方法,AI可能會提供錯誤或尚未獲得醫學認可的療法。例如,在一個案例中,AI建議某種藥物與特定食品一起使用,以「增強療效」,但這種組合其實可能帶來嚴重的副作用,且並無臨床支持。3. 偽造的技術文件
在軟體工程領域,有時AI會提供錯誤的API文件或函式庫使用方法。例如,有開發者詢問某個程式語言的函式,但AI生成的文件內容可能包含不存在的參數或錯誤的函式名稱,導致程式執行時出現錯誤。
4. 歷史錯誤
有些AI可能會錯誤地描述歷史事件,例如混淆年份、地點或人物。例如,一些LLM曾錯誤地宣稱某位歷史人物參與了一場他們實際上並未參加的戰役,或是將不同時代的事件合併在一起。
5. 幻覺式法律解釋
某些AI可能會生成不正確的法律解釋,例如錯誤引用某國法規或編造新的法律條款,使人誤以為其具有法律效力。有些人曾請AI提供美國某州的最新法律條文,但AI卻生成了完全不存在的法規,使查詢者誤判法律適用性。
如何應對這些AI幻覺
當你在使用LLM(如OpenAI API或LangChain)進行開發時,可以透過以下方法減少幻覺:
- 設計提示工程策略:透過正確的prompt引導AI,讓它提供更準確的回答。
- 結合檢索增強生成(RAG):確保AI可以直接查詢可靠的外部資料來源,避免捏造資訊。
- 使用FAISS或ChromaDB進行向量檢索:存儲高質量資料並進行向量搜尋,以獲得更精確的結果。
- 人工驗證:在高風險領域(如醫學、法律、技術)中,永遠確保人類審查環節。
學習成果
理解了什麼是AI幻覺,AI幻覺的主要類型、造成原因、如何減少(應對)幻覺,讓AI的回答更為準確,減少或避免出現AI幻覺,上篇我們已經提到prompt engineering(提示工程)了,可以用不同的策略讓LLM生成更準確、符合需求的回應,減少出現幻覺,後續可以繼續學習結合檢索增強生成(RAG)、使用FAISS或ChromaDB進行向量檢索讓AI可以更精準的回答我們的問題,另外由於和AI的交互是需要花費金錢的,所以在成本的控管上也是需要了解的,各大語言模型調用花費,如何微調參數,降低計算成本也是很值得探討的。