最近蘋果團隊發了一篇 AI 論文,標題是《The Illusion of Thinking》。他們提出一個尖銳的觀點:
當前號稱具備「推理能力」的 AI 模型(包括 GPT-4、Claude 3、Gemini 等),其實只是玩了一場「進階記憶遊戲」;只要邏輯題稍微複雜一點,這些模型就會崩潰。
🤔 老實說,這根本不意外
對有在看 LLM 演算法的來說,這種結果說穿了根本不需要發 paper 證明。原因很簡單:- LLM 不是邏輯推理機器,而是透過統計歸納來產生最符合語言上下文的回應(maximize token likelihood)。
- ChatGPT、Claude、Gemini 這些大語言模型不是從邏輯規則一步步推演答案;它會說:「這題我以前看過的題型是怎麼寫的?照那個 pattern 回答看看。」
- 當你給它一個需要演繹、遞迴、分支推理的問題,就相當於把奧數題目丟給文科生,結果不讓人意外.
🧠 蘋果發這篇到底想幹嘛?
你問我為什麼蘋果還是要做這個研究?
從6/9的 WWDC 來看,蘋果是用這篇 diss 一下 OpenAI、Anthropic、Google 說別人做的不怎麼樣,來遮掩自己在商用大語言模型這塊的進展緩慢。
下面先整理蘋果這篇摘要內容:
這篇《The Illusion of Thinking》(來自 Apple 團隊)是一份對當前最先進大型語言模型(LLMs)、特別是所謂「Large Reasoning Models (LRMs)」的推理能力,進行系統性、控制式分析的研究。以下是摘要與重點整理:
📌 研究核心問題
雖然大語言模型(如 GPT-4 Turbo、Claude 3.7 Thinking、DeepSeek-R1 等)聲稱具備「推理」能力,並能產生類似人類的 Chain-of-Thought(CoT),但這篇研究質疑:
⚠️ 這些模型真正具備通用推理能力嗎?
🧠 擺脫傳統數學題,改用「可控邏輯謎題」
研究團隊認為現有的數學題評測(如 MATH500、AIME)存在兩大問題:
- 資料污染嚴重(模型可能早就見過類似題)
- 難以控制題目複雜度與邏輯結構
因此他們採用 4 類邏輯謎題(Puzzle Environments),每種都可細緻調整難度,並可直接評估中間推理過程(非只看答案):
- 河內塔(Tower of Hanoi)
- 跳棋換位(Checker Jumping)
- 過河問題(River Crossing)
- 積木世界(Blocks World)
📉 三階段推理崩潰現象
他們發現了令人震驚的推理能力崩潰現象:
👶 1. 低複雜度(簡單題):
- 「非推理模型」比「推理模型」更準、更省 Token
- LRMs 常常「自作聰明」導致冗長與誤判(Overthinking)
🤔 2. 中等複雜度:
- 推理模型稍有優勢,能找到正解,但耗費大量 Token
- 表現略優,但不穩定
💀 3. 高複雜度:
- 所有模型全面崩潰
- 即使提供充足 Token、明確提示,仍無法推演出正確步驟
- 甚至「推理 Token 用量反而下降」:模型選擇提早放棄!
🪞 內部推理追蹤分析
作者不只看模型答什麼,而是看它怎麼「想」的:
- 在簡單題中:模型早早猜對,然後繼續亂想
- 中等題:一開始亂猜,後面慢慢靠近正解
- 高難題:整段推理軌跡幾乎沒有正解,呈現完全無能的狀態
還有一個驚人的發現:
即使把正確算法明示在 prompt 裡,模型依然照樣犯錯。
這表示:
- 模型不是「不會找答案」,而是無法執行邏輯規則本身。
- 換句話說:它記得算法,但「做不到算法」。
🤖 LLM 與 LRM 的比較結果
任務難度 vs. 表現最佳模型 原因
簡單任務:LLM(非推理)token 效率高,不會過度思考
中階任務:LRM(推理型)CoT 結構幫助更長遠推理
高階任務:無一生還,LLM/LRM 所有模型推理全崩潰,token 使用反而變少.
LRM 是在 Transformer LLM 基礎上加入「推理訓練與模組」的版本,但本質仍不是真正的邏輯推理模型,因此遇到複雜演繹問題仍然無法處理.
💡 這篇的結論
當前的「推理 AI」模型在真正推理上依然有巨大障礙,它們主要是「套用過去經驗」,而非真正能執行邏輯遞進的演繹機器。
以下是我的個人看法:
蘋果團隊這篇《The Illusion of Thinking》在糾結什麼?
他們其實在指出當前大語言模型架構的本質侷限,可以這麼說:
❝ 如果你訓練出來的模型擁有幾千億參數,看起來能回答詩詞歌賦、程式設計、法律諮詢……那麼,為什麼一個三步邏輯的問題,它卻會崩潰?❞
他們要問的是:
- 這些模型真的在「理解」嗎?
- 還是只是在「套用過去經驗」?
✅當前 LLM 主流
目前主流的 LLM(像 GPT-4、Claude 3、Gemini)在文字語意理解跟生成式 AI 非常強,因為這才是主流需求.
同時也有很多做數學邏輯推演很強的 AI 模型(後面會列舉),但並沒有流行起來,同樣是因為市場沒有這方面需求.
而且結合這些「強化推理能力」的整合策略,雖然可以大幅提升 AI 模型在數學與邏輯問題上的準確度與可信度,但必然帶來額外的高昂運算開銷跟更慢反應速度。
像是 LRM (reasoning-enhanced LLM)的目的在於補強一般 LLM 缺乏嚴格邏輯推理能力的問題;但通常不會主動「判斷情況」決定是否啟用推理模式而是依賴「外部提示(prompt)」或「任務設定」來啟動其推理能力;原因就如同前面所述「慢、貴、大部分時候沒必要」.
最好笑的是拿這去問 ChatGPT 4o,它會說這就是它們不擅長的題目:

✅硬解,跟如何避免
即便如此,問ChatGPT這些他們不會推演的問題-它還是會硬解;它的回答行為遵循(maximize token likelihood)的邏輯:
- 從過去訓練過的模式中找出「像是這種問題的答案會長怎樣」;
- 試著寫出符合這種風格的回應;
- 即使答錯,也會給出一本正經的錯誤回應(這就是所謂 hallucination)。
要避免 LLM 一本正經的錯誤回應( hallucination),可以使用 Chain of Thought 或啟用推理模式的提示語(如:「請逐步推理這個問題,最後才給出答案。若無把握請說明。」).
LLM 給的數字計算的部分,建議都再自己算過一次來確認.
✅從AI發展史來看:
其實早期 AI 推理就是根據工程師寫的規則來進行演繹、歸納和搜尋(決策樹、搜尋樹之類的);像是專家系統跟棋類 AI ,那時候 AI 最熱門的新聞就是 AI 戰勝人類棋手,不過那時候 AI 跟一般人生活沒甚麼關聯,應用很有限.
一直到近幾年大語言模型的興起,它不試圖去理解符號的「意義」,而是學習符號與符號之間的「關聯性」;從大量的數據中湧現 (Emerge) 的統計規律,透過統計歸納來產生最符合語言上下文的回應(maximize token likelihood).
大語言模型以 Transformer 架構為基礎,某種程度也是模仿人腦神經元的連結方式,透過海量數據訓練跟大量自然語言資料訓練而成,LLM 非常擅長處理模糊與複雜性的人類語言,通用性也強;因此走入一般人的生活中.
最後,下面是一些數學推演很強的AI模型(大家不熟也正常,因為用不到啊~):
✅ 現在數學邏輯推演很強的 AI 模型(代表性)
- AlphaCode (by Google DeepMind): 主要目標是解決競技程式設計問題。它理解用自然語言描述的複雜問題(包含邏輯、演算法、資料結構),然後生成正確的程式碼來解決它。它的核心是「演算法邏輯推演」。
- Lean : 它本身不像是一個 AI 模型,而是一個互動式定理證明器 (Interactive Theorem Prover) 和一種程式語言。數學家可以用 Lean 寫出電腦可以一步步驗證的、絕對嚴謹的數學證明。AI 在這裡的角色是輔助人類使用 Lean,例如自動尋找證明的下一步或將非形式化的數學語言轉為 Lean 程式碼。它的核心是「形式化數學邏輯」。
- AlphaGeometry (by Google DeepMind):是一個專門解決奧林匹亞等級幾何問題的 AI 系統。結合了神經網路語言跟模型符號推演引擎 (Symbolic Deduction Engine),這個「神經+符號」的混合方法,被認為是未來解決複雜邏輯問題的關鍵。

















