AI胡說八道的背後:大語言模型(LLM)幻覺率排行與你必知的防範方法

更新 發佈閱讀 9 分鐘

大家不知道有沒有這樣的經驗?曾經跟四、五歲小孩對話的經驗,你問他:爸爸的工作是什麼?孩子很認真的回答說:消防員,但實際爸爸是個上班族;再繼續問下去他都可以煞有其事地回答,但對這孩子來說,他並沒有說謊,他真心相信他的爸爸是個英勇的消防員

在 Gen AI 也有這個現象,你請 AI 規劃一個旅程和餐廳,結果 AI 推薦了你一個圖文並茂的餐廳,但當你去 Google 搜尋時,發現這個餐廳根本不存在。之前就有一個新聞,馬來西亞一對老夫婦在網路看到一段觀光纜車的旅遊宣傳影片,深受吸引,特地從吉隆坡出發,被AI影片騙去「虛構景點」,影片從頭到尾,包括沿路介紹與訪問遊客的主持人,都是AI生成,但這對老夫婦已經花6萬包車白跑一趟

這就是所謂的 AI幻覺(Hallucination),AI 一本正經、真心不騙地告訴你一個錯誤的答案,結果根本在胡說八道。這種現象,在生成式 AI 現有的技術尚無法避免,這也是為什麼,在萬物皆 AI 的時代,了解AI幻覺非常重要。


一、什麼是AI幻覺?

AI幻覺(AI Hallucination)指的是人工智慧(AI)模型產生錯誤、虛構或不符合現實的資訊。雖然這些資訊常常看起來相當合理且像是真實可靠的答案,但事實上卻是錯誤的。這種現象在大型語言模型(LLM)或生成式AI系統中尤其常見,如OpenAI的ChatGPT、Google Gemini、Meta的LLaMA等。原因包括:

1.訓練數據的局限性和偏誤

AI模型經過學習大量訓練數據回答問題,但這些數據本身可能不完整、有偏見或含錯誤。或是,這些模型所訓練的數據有其時間性。

(1)侷限性:如果訓練資料沒涵蓋某類知識或是某個時間段的知識,模型就給不出正確答案,甚至瞎編

例如,現在是2025年8月,ChatGPT 4o模型知識庫更新到2023年10月左右。這意味著模型無法得知2023年10月以後的新事件、新知識或資料,如果問及之後的最新訊息,例如問2025年7月關稅戰的資訊,回覆可能不準確或不完整。

(2)偏誤:資料偏重某地區、時期、語言或文化,回答可能帶有不公平、刻板印象。

例如,早期AI圖像識別系統偏好將「醫生」認為是男性,因為訓練照片男性醫生比較多;婦女、少數族群代表性低,導致錯誤標籤。

2.模型本身只能依賴統計與機率生成答案,並非真正理解資訊的真實性

AI模型並不真正理解世界,它的內部是一套由神經網路結構和數以億計參數構成的數學模型,這些參數是透過大量文字資料訓練得來,運作時根據統計規律與機率分布,推算在目前上下文中最可能出現的詞句。模型並不具備事實核查的能力,也不會主動判斷訊息真偽,因此輸出的內容雖可能正確,也有可能完全錯誤,但語氣依然流暢、合乎邏輯。

3.語言模型設計以生成看似合理的內容為優先,非確認真實性

大多數生成式AI設計目標是用流暢語言回答,看起來合乎邏輯,而不是追求每個細節都完全正確。模型會優先考量內容的語言結構和合理性,而不是逐一查驗事實


二、因AI幻覺受罰的實際案例

生成式AI一本正經胡說八道,已導致企業或個人面臨法律及商業責任。以下幾個具體案例:

1. 美國律師引用ChatGPT幻覺案

2023年紐約律師Steven Schwartz與Peter LoDuca。他們在處理對Avianca航空的民事訴訟時,於法庭文件中引用了ChatGPT虛構的6個根本不存在的案例。事後查無此案,兩人向法院道歉並承認錯誤,最終被美國法官裁罰5,000美元,並要求對相關法官解釋來龍去脈

Damien Charlotin(法律與國際仲裁記者、數據分析師、法律顧問)個人網站資料庫追蹤法律判決因AI幻覺導致被判罰的案例,其中在USA的判例已達上百件

2. 加拿大航空(Air Canada)必須遵守其聊天機器人制定的退款政策

加拿大乘客Jake Moffatt在2022年因祖母去世,需要緊急訂票。他不確定如何申請「哀悼票價」(bereavement fare)折扣,因此在Air Canada官網諮詢聊天機器人。機器人回覆他,可以先購票,然後於90天內申請退差額(即事後補辦折扣),並提供了申請方式。

但實際上,Air Canada真正的政策是不接受「事後申請」。Jake按照機器人指示購票並保留了聊天紀錄,事後要求退款時被拒且僅獲得200加元未來抵用券。他不服而向卑詩省民事調解法庭(Civil Resolution Tribunal)提出申訴。

2024年2月,法庭裁定Air Canada必須遵守聊天機器人給出的承諾,原因如下:

  • 法官認定:聊天機器人是航空公司網站一部分,航空公司必須對其平台上的所有內容負責,無論是靜態網頁還是AI交互工具
  • Air Canada主張機器人是獨立法律主體,與航空公司本身無關,被法庭駁回
  • 法庭認為:消費者不可能分辨網站不同部分資訊的真實性,也不該被要求交叉查證

最後,Air Canada被判退還部分票款與賠償費用(約650加元,數據依不同媒體報導有微差),並被公開要求改善AI工具的準確性及信息透明度。

這個判例證明企業需為AI客服擔負法律責任,為AI產生的錯誤信息負全責,不能以「技術代理」為由推卸


三、各家大型語言模型(LLM) 發生幻覺的比率大約是多少?

現在已有多家知名公司和組織,針對大型語言模型(LLM)的幻覺率進行專業測試並公開排行榜,包括Vectara, Hugging Face, Arthur AI等,下面列出 Vectara 比較LLM在「摘要短文」時出現幻覺的頻率,其測試流程方法簡述如下:

  • 使用HHEM-2.1幻覺檢測模型
    Vectara團隊自家開發Hughes Hallucination Evaluation Model(HHEM-2.1),可自動偵測、標註每個AI模型在摘要任務產生的幻覺
  • 標準化任務:文獻摘要
    所有受測AI模型(如ChatGPT、Gemini、Llama等)都被要求對同一組短文件(主要來自CNN / Daily Mail Corpus)進行摘要,只能根據原文事實生成內容
  • 統一設定
    所有模型均透過API自動化調用,使用「temperature=0」確保生成內容極為保守、具再現性。
  • 明確評分標準
    每份summary會自動比較其內容是否完全符合原始文件。如果有新增事實、虛構細節、扭曲原意,即被歸為「幻覺」,評分重點是「事實一致性率」和「幻覺率」
  • 批量測試與統計
    總計測試約1,000份文件,但僅對831份被所有模型成功生成摘要的文件進行最終統計,排除內容過濾失敗或回答過短(比如只輸出一兩個字詞)。

 Vectara 在2025/8/12 更新AI幻覺率排行榜(Hallucination Leaderboard)如下,可以看到大家熟悉常見的大廠模型,幻覺率從 0.6%~29.9% 不等(點連結進去可以看到159個LLM模型排行榜),例如現在大家使用ChatGPT模型以4o為主,幻覺率約1.5%,如果使用者使用頻率高,有可能一天就會看到幾次胡說八道的回答


四、使用者的因應之道

即使AI越來越進步,幻覺現象仍難以避免,作為一般使用者,可以以下述方式面對「AI胡說八道」的挑戰

1. 主動驗證資訊

  • 不能完全相信AI給的答案
  • 針對AI回應的內容,主動查證來源或佐證,在內容後面若有參考資料,引用前打開了解參考網頁的內容確認真偽
  • 可以使用再次詢問的方式,確認回答的真偽

2. 精準提問(Prompt)

  • 提供明確指令與完整語境:Prompt愈清楚、愈具體,例如附帶細節、指定參考文件、網站(引用來源),模型生成答案時就能更聚焦於已知事實或可靠領域,減少胡編亂造
  • 角色/身分設定:要求模型以某專業身分回答,例如,請你以法律專家的身分,根據公開判例回覆,能提高回答針對性
  • 給予範例與期望格式:提供具體範例讓模型模仿,引導它避免產生無根據內容
  • 思維鏈思考(Chain-of-Thought, CoT):選用已有CoT能力模型,該類型模型有一步步解釋推理過程的能力,能提升正確率並減少邏輯失誤,減少幻覺出現,例如OpenAI o1、o3-mini、o3、o4-mini, Gemini 2.0、2.5 Pro、Flash/Flash-Lite, Meta Llama 3.x 系列等

3. 使用多元工具進行交叉比對

  • 多問幾個不同AI、參考不同來源意見
  • 與人類專家討論或請教,避免完全依賴AI

4. 持續關注AI技術新進展

  • 生成式AI每隔數月就有新模型,幻覺率逐漸降低,持續了解模型限制與進步,有助提升自我防護

 



留言
avatar-img
Ling(阿金)的沙龍
48會員
31內容數
Ling(阿金)的沙龍,希望著重於「經營管理」內容,但因為每個工作經歷差異都很大,所以很難保證內容產出。 曾在研究機構、銲錫、太陽能EPC、電線電纜、事務所、電子業擔任PM、研發、業務、品保、職安衛、經營管理、顧問、行銷職能,現任電子業AI治理專案PM。
Ling(阿金)的沙龍的其他內容
2025/05/06
本文提供關於三個人工智慧相關證照的建議,包含ISO/IEC 42001人工智慧管理系統主導稽核員、經濟部iPAS AI應用規劃師和Microsoft Azure AI Fundamentals。針對每個證照,提供其內容概要、適合對象、考試資訊和學習資源等。
Thumbnail
2025/05/06
本文提供關於三個人工智慧相關證照的建議,包含ISO/IEC 42001人工智慧管理系統主導稽核員、經濟部iPAS AI應用規劃師和Microsoft Azure AI Fundamentals。針對每個證照,提供其內容概要、適合對象、考試資訊和學習資源等。
Thumbnail
2025/04/26
本文提供學習AI的資源整理,包含免費和付費的線上及線下課程。免費資源涵蓋工研院產業學習網、勞動部職業訓練補助、中小企業網路大學校、Coursera、Learn Microsoft、IBM Technology、Nvidia DLI、臺大李宏毅老師的YouTube頻道及網易公開課等。
Thumbnail
2025/04/26
本文提供學習AI的資源整理,包含免費和付費的線上及線下課程。免費資源涵蓋工研院產業學習網、勞動部職業訓練補助、中小企業網路大學校、Coursera、Learn Microsoft、IBM Technology、Nvidia DLI、臺大李宏毅老師的YouTube頻道及網易公開課等。
Thumbnail
2024/12/11
本文介紹ISO、GB規範與國際機器人聯合會(IFR)對機器人不同分類方式與類型。除中國外,一般國際較參照IFR的分類方式。
Thumbnail
2024/12/11
本文介紹ISO、GB規範與國際機器人聯合會(IFR)對機器人不同分類方式與類型。除中國外,一般國際較參照IFR的分類方式。
Thumbnail
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後,我們來試用看看ChatGPT。 嘗試問以下問題:Provide a
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後,我們來試用看看ChatGPT。 嘗試問以下問題:Provide a
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News