大家不知道有沒有這樣的經驗?曾經跟四、五歲小孩對話的經驗,你問他:爸爸的工作是什麼?孩子很認真的回答說:消防員,但實際爸爸是個上班族;再繼續問下去他都可以煞有其事地回答,但對這孩子來說,他並沒有說謊,他真心相信他的爸爸是個英勇的消防員
在 Gen AI 也有這個現象,你請 AI 規劃一個旅程和餐廳,結果 AI 推薦了你一個圖文並茂的餐廳,但當你去 Google 搜尋時,發現這個餐廳根本不存在。之前就有一個新聞,馬來西亞一對老夫婦在網路看到一段觀光纜車的旅遊宣傳影片,深受吸引,特地從吉隆坡出發,被AI影片騙去「虛構景點」,影片從頭到尾,包括沿路介紹與訪問遊客的主持人,都是AI生成,但這對老夫婦已經花6萬包車白跑一趟
這就是所謂的 AI幻覺(Hallucination),AI 一本正經、真心不騙地告訴你一個錯誤的答案,結果根本在胡說八道。這種現象,在生成式 AI 現有的技術尚無法避免,這也是為什麼,在萬物皆 AI 的時代,了解AI幻覺非常重要。一、什麼是AI幻覺?
AI幻覺(AI Hallucination)指的是人工智慧(AI)模型產生錯誤、虛構或不符合現實的資訊。雖然這些資訊常常看起來相當合理且像是真實可靠的答案,但事實上卻是錯誤的。這種現象在大型語言模型(LLM)或生成式AI系統中尤其常見,如OpenAI的ChatGPT、Google Gemini、Meta的LLaMA等。原因包括:
1.訓練數據的局限性和偏誤
AI模型經過學習大量訓練數據回答問題,但這些數據本身可能不完整、有偏見或含錯誤。或是,這些模型所訓練的數據有其時間性。
(1)侷限性:如果訓練資料沒涵蓋某類知識或是某個時間段的知識,模型就給不出正確答案,甚至瞎編
例如,現在是2025年8月,ChatGPT 4o模型知識庫更新到2023年10月左右。這意味著模型無法得知2023年10月以後的新事件、新知識或資料,如果問及之後的最新訊息,例如問2025年7月關稅戰的資訊,回覆可能不準確或不完整。
(2)偏誤:資料偏重某地區、時期、語言或文化,回答可能帶有不公平、刻板印象。
例如,早期AI圖像識別系統偏好將「醫生」認為是男性,因為訓練照片男性醫生比較多;婦女、少數族群代表性低,導致錯誤標籤。
2.模型本身只能依賴統計與機率生成答案,並非真正理解資訊的真實性
AI模型並不真正理解世界,它的內部是一套由神經網路結構和數以億計參數構成的數學模型,這些參數是透過大量文字資料訓練得來,運作時根據統計規律與機率分布,推算在目前上下文中最可能出現的詞句。模型並不具備事實核查的能力,也不會主動判斷訊息真偽,因此輸出的內容雖可能正確,也有可能完全錯誤,但語氣依然流暢、合乎邏輯。
3.語言模型設計以生成看似合理的內容為優先,非確認真實性
大多數生成式AI設計目標是用流暢語言回答,看起來合乎邏輯,而不是追求每個細節都完全正確。模型會優先考量內容的語言結構和合理性,而不是逐一查驗事實
二、因AI幻覺受罰的實際案例
生成式AI一本正經胡說八道,已導致企業或個人面臨法律及商業責任。以下幾個具體案例:
1. 美國律師引用ChatGPT幻覺案
2023年紐約律師Steven Schwartz與Peter LoDuca。他們在處理對Avianca航空的民事訴訟時,於法庭文件中引用了ChatGPT虛構的6個根本不存在的案例。事後查無此案,兩人向法院道歉並承認錯誤,最終被美國法官裁罰5,000美元,並要求對相關法官解釋來龍去脈
Damien Charlotin(法律與國際仲裁記者、數據分析師、法律顧問)個人網站資料庫追蹤法律判決因AI幻覺導致被判罰的案例,其中在USA的判例已達上百件
2. 加拿大航空(Air Canada)必須遵守其聊天機器人制定的退款政策
加拿大乘客Jake Moffatt在2022年因祖母去世,需要緊急訂票。他不確定如何申請「哀悼票價」(bereavement fare)折扣,因此在Air Canada官網諮詢聊天機器人。機器人回覆他,可以先購票,然後於90天內申請退差額(即事後補辦折扣),並提供了申請方式。
但實際上,Air Canada真正的政策是不接受「事後申請」。Jake按照機器人指示購票並保留了聊天紀錄,事後要求退款時被拒且僅獲得200加元未來抵用券。他不服而向卑詩省民事調解法庭(Civil Resolution Tribunal)提出申訴。
2024年2月,法庭裁定Air Canada必須遵守聊天機器人給出的承諾,原因如下:
- 法官認定:聊天機器人是航空公司網站一部分,航空公司必須對其平台上的所有內容負責,無論是靜態網頁還是AI交互工具
- Air Canada主張機器人是獨立法律主體,與航空公司本身無關,被法庭駁回
- 法庭認為:消費者不可能分辨網站不同部分資訊的真實性,也不該被要求交叉查證
最後,Air Canada被判退還部分票款與賠償費用(約650加元,數據依不同媒體報導有微差),並被公開要求改善AI工具的準確性及信息透明度。
這個判例證明企業需為AI客服擔負法律責任,為AI產生的錯誤信息負全責,不能以「技術代理」為由推卸
三、各家大型語言模型(LLM) 發生幻覺的比率大約是多少?
現在已有多家知名公司和組織,針對大型語言模型(LLM)的幻覺率進行專業測試並公開排行榜,包括Vectara, Hugging Face, Arthur AI等,下面列出 Vectara 比較LLM在「摘要短文」時出現幻覺的頻率,其測試流程方法簡述如下:
- 使用HHEM-2.1幻覺檢測模型
Vectara團隊自家開發Hughes Hallucination Evaluation Model(HHEM-2.1),可自動偵測、標註每個AI模型在摘要任務產生的幻覺 - 標準化任務:文獻摘要
所有受測AI模型(如ChatGPT、Gemini、Llama等)都被要求對同一組短文件(主要來自CNN / Daily Mail Corpus)進行摘要,只能根據原文事實生成內容 - 統一設定
所有模型均透過API自動化調用,使用「temperature=0」確保生成內容極為保守、具再現性。 - 明確評分標準
每份summary會自動比較其內容是否完全符合原始文件。如果有新增事實、虛構細節、扭曲原意,即被歸為「幻覺」,評分重點是「事實一致性率」和「幻覺率」 - 批量測試與統計
總計測試約1,000份文件,但僅對831份被所有模型成功生成摘要的文件進行最終統計,排除內容過濾失敗或回答過短(比如只輸出一兩個字詞)。
Vectara 在2025/8/12 更新AI幻覺率排行榜(Hallucination Leaderboard)如下,可以看到大家熟悉常見的大廠模型,幻覺率從 0.6%~29.9% 不等(點連結進去可以看到159個LLM模型排行榜),例如現在大家使用ChatGPT模型以4o為主,幻覺率約1.5%,如果使用者使用頻率高,有可能一天就會看到幾次胡說八道的回答
四、使用者的因應之道
即使AI越來越進步,幻覺現象仍難以避免,作為一般使用者,可以以下述方式面對「AI胡說八道」的挑戰
1. 主動驗證資訊
- 不能完全相信AI給的答案
- 針對AI回應的內容,主動查證來源或佐證,在內容後面若有參考資料,引用前打開了解參考網頁的內容確認真偽
- 可以使用再次詢問的方式,確認回答的真偽
2. 精準提問(Prompt)
- 提供明確指令與完整語境:Prompt愈清楚、愈具體,例如附帶細節、指定參考文件、網站(引用來源),模型生成答案時就能更聚焦於已知事實或可靠領域,減少胡編亂造
- 角色/身分設定:要求模型以某專業身分回答,例如,請你以法律專家的身分,根據公開判例回覆,能提高回答針對性
- 給予範例與期望格式:提供具體範例讓模型模仿,引導它避免產生無根據內容
- 思維鏈思考(Chain-of-Thought, CoT):選用已有CoT能力模型,該類型模型有一步步解釋推理過程的能力,能提升正確率並減少邏輯失誤,減少幻覺出現,例如OpenAI o1、o3-mini、o3、o4-mini, Gemini 2.0、2.5 Pro、Flash/Flash-Lite, Meta Llama 3.x 系列等
3. 使用多元工具進行交叉比對
- 多問幾個不同AI、參考不同來源意見
- 與人類專家討論或請教,避免完全依賴AI
4. 持續關注AI技術新進展
- 生成式AI每隔數月就有新模型,幻覺率逐漸降低,持續了解模型限制與進步,有助提升自我防護


















