⭐ 事件
大模型常出現:
👉 看似合理
👉 格式正確 👉 但不存在的論文或案例
甚至:
👉 律師曾提交 AI 生成假案例
👉 法院震驚
🎯 意義
這種現象被稱:
👉 hallucination
本質原因:
👉 LLM 是 next-token predictor
👉 不具真實性驗證機制
📚 ChatGPT 幻覺引用不存在論文 (AI citation hallucination)

AI 幻覺引用(citation hallucination)是指:
大型語言模型生成看似合理、但實際不存在的論文、作者或 DOI。
這被視為 LLM 時代最典型、也最具爭議的失敗模式之一。
📜 事件背景
隨著
OpenAI
推出的 ChatGPT
在 2022–2023 年快速普及,研究者與使用者發現:
👉 ChatGPT 可生成完整 bibliography
👉 但部分文獻查無此文
🔥 著名案例
⚖️ 律師案件(最震撼)
2023 年,美國一宗法律案件中:
- 律師使用 ChatGPT 撰寫法律文件
- ChatGPT 提供多篇判例
- 律師未查證直接引用
結果:
👉 多篇判例 完全不存在
法院調查後:
- 律師承認使用 ChatGPT
- 法院裁定不當行為
- 施以罰款
此事件廣泛被稱為:
fake case law incident
🎓 學術界觀察
多項研究發現:
- AI 生成參考文獻中
👉 20–60% 不存在(依領域)
特徵:
- 真實作者 + 假標題
- 真實期刊 + 假卷號
- plausible DOI
👉 高度可信外觀
🧠 為何會產生?
① 語言模型本質
LLM 的目標是:
預測下一個 token不是:
- 檢索資料庫
- 查驗事實
因此:
👉 只需生成「看起來合理」
② citation pattern learning
LLM 在訓練中學到:
- 作者格式
- 年份分布
- 期刊命名
- DOI 結構
因此可生成:
syntactically perfect citations
③ confabulation(補全傾向)
當知識缺失時:
👉 模型傾向生成 plausible completion
而非:
👉 說不知道
④ lack of grounding
若無:
- retrieval
- database link
- tool use
生成內容:
👉 無外部錨定
🔬 這與「說謊」不同
研究者強調:
hallucination ≠ intentional deception
而是:
👉 generative completion error
模型:
- 無信念
- 無真偽判斷
- 無意圖
🧊 影響與後果
📖 學術
- bibliography 檢查需求上升
- journal guidelines 更新
⚖️ 法律
- AI 使用責任問題
- duty to verify
🤖 AI research
- retrieval-augmented generation(RAG)
- citation verification
- grounded generation
🧠 深層哲學意義
citation hallucination 被視為:
語言能力 ≠ 知識能力
也就是:
- fluent ≠ true
- coherent ≠ grounded
這與:
- ELIZA effect
- stochastic parrot
形成呼應。
⭐ 一句話總結
ChatGPT 幻覺引用不存在論文,源於 LLM 的生成本質:它優先生成「合理文本」,而非保證「真實引用」。


















