《The Illusion of Thinking》：蘋果AI團隊這篇報告到底想說什麼？

小滑

發佈於科技評論

2025/06/10 更新2025/06/08 發佈閱讀 9 分鐘

最近蘋果團隊發了一篇 AI 論文，標題是《The Illusion of Thinking》。他們提出一個尖銳的觀點：

當前號稱具備「推理能力」的 AI 模型（包括 GPT-4、Claude 3、Gemini 等），其實只是玩了一場「進階記憶遊戲」；只要邏輯題稍微複雜一點，這些模型就會崩潰。

🤔 老實說，這根本不意外

對有在看 LLM 演算法的來說，這種結果說穿了根本不需要發 paper 證明。原因很簡單：

LLM 不是邏輯推理機器，而是透過統計歸納來產生最符合語言上下文的回應（maximize token likelihood）。
ChatGPT、Claude、Gemini 這些大語言模型不是從邏輯規則一步步推演答案；它會說：「這題我以前看過的題型是怎麼寫的？照那個 pattern 回答看看。」
當你給它一個需要演繹、遞迴、分支推理的問題，就相當於把奧數題目丟給文科生，結果不讓人意外．

🧠 蘋果發這篇到底想幹嘛？

你問我為什麼蘋果還是要做這個研究？

從6/9的 WWDC 來看，蘋果是用這篇 diss 一下 OpenAI、Anthropic、Google 說別人做的不怎麼樣，來遮掩自己在商用大語言模型這塊的進展緩慢。

下面先整理蘋果這篇摘要內容：

這篇《The Illusion of Thinking》（來自 Apple 團隊）是一份對當前最先進大型語言模型（LLMs）、特別是所謂「Large Reasoning Models (LRMs)」的推理能力，進行系統性、控制式分析的研究。以下是摘要與重點整理：

📌 研究核心問題

雖然大語言模型（如 GPT-4 Turbo、Claude 3.7 Thinking、DeepSeek-R1 等）聲稱具備「推理」能力，並能產生類似人類的 Chain-of-Thought（CoT），但這篇研究質疑：

⚠️ 這些模型真正具備通用推理能力嗎？

🧠 擺脫傳統數學題，改用「可控邏輯謎題」

研究團隊認為現有的數學題評測（如 MATH500、AIME）存在兩大問題：

資料污染嚴重（模型可能早就見過類似題）
難以控制題目複雜度與邏輯結構

因此他們採用 4 類邏輯謎題（Puzzle Environments），每種都可細緻調整難度，並可直接評估中間推理過程（非只看答案）：

河內塔（Tower of Hanoi）
跳棋換位（Checker Jumping）
過河問題（River Crossing）
積木世界（Blocks World）

📉 三階段推理崩潰現象

他們發現了令人震驚的推理能力崩潰現象：

👶 1. 低複雜度（簡單題）：

「非推理模型」比「推理模型」更準、更省 Token
LRMs 常常「自作聰明」導致冗長與誤判（Overthinking）

🤔 2. 中等複雜度：

推理模型稍有優勢，能找到正解，但耗費大量 Token
表現略優，但不穩定

💀 3. 高複雜度：

所有模型全面崩潰
即使提供充足 Token、明確提示，仍無法推演出正確步驟
甚至「推理 Token 用量反而下降」：模型選擇提早放棄！

🪞 內部推理追蹤分析

作者不只看模型答什麼，而是看它怎麼「想」的：

在簡單題中：模型早早猜對，然後繼續亂想
中等題：一開始亂猜，後面慢慢靠近正解
高難題：整段推理軌跡幾乎沒有正解，呈現完全無能的狀態

還有一個驚人的發現：

即使把正確算法明示在 prompt 裡，模型依然照樣犯錯。

這表示：

模型不是「不會找答案」，而是無法執行邏輯規則本身。
換句話說：它記得算法，但「做不到算法」。

🤖 LLM 與 LRM 的比較結果

任務難度 vs. 表現最佳模型原因
簡單任務：LLM（非推理）token 效率高，不會過度思考
中階任務：LRM（推理型）CoT 結構幫助更長遠推理
高階任務：無一生還，LLM/LRM 所有模型推理全崩潰，token 使用反而變少．

LRM 是在 Transformer LLM 基礎上加入「推理訓練與模組」的版本，但本質仍不是真正的邏輯推理模型，因此遇到複雜演繹問題仍然無法處理．

💡 這篇的結論

當前的「推理 AI」模型在真正推理上依然有巨大障礙，它們主要是「套用過去經驗」，而非真正能執行邏輯遞進的演繹機器。

以下是我的個人看法：

蘋果團隊這篇《The Illusion of Thinking》在糾結什麼？

他們其實在指出當前大語言模型架構的本質侷限，可以這麼說：

❝ 如果你訓練出來的模型擁有幾千億參數，看起來能回答詩詞歌賦、程式設計、法律諮詢……那麼，為什麼一個三步邏輯的問題，它卻會崩潰？❞

他們要問的是：

這些模型真的在「理解」嗎？
還是只是在「套用過去經驗」？

✅當前 LLM 主流

目前主流的 LLM（像 GPT-4、Claude 3、Gemini）在文字語意理解跟生成式 AI 非常強，因為這才是主流需求．

同時也有很多做數學邏輯推演很強的 AI 模型（後面會列舉），但並沒有流行起來，同樣是因為市場沒有這方面需求．

而且結合這些「強化推理能力」的整合策略，雖然可以大幅提升 AI 模型在數學與邏輯問題上的準確度與可信度，但必然帶來額外的高昂運算開銷跟更慢反應速度。

像是 LRM （reasoning-enhanced LLM）的目的在於補強一般 LLM 缺乏嚴格邏輯推理能力的問題；但通常不會主動「判斷情況」決定是否啟用推理模式而是依賴「外部提示（prompt）」或「任務設定」來啟動其推理能力；原因就如同前面所述「慢、貴、大部分時候沒必要」．

最好笑的是拿這去問 ChatGPT 4o，它會說這就是它們不擅長的題目：

✅硬解，跟如何避免

即便如此，問ChatGPT這些他們不會推演的問題－它還是會硬解；它的回答行為遵循（maximize token likelihood）的邏輯：

從過去訓練過的模式中找出「像是這種問題的答案會長怎樣」；
試著寫出符合這種風格的回應；
即使答錯，也會給出一本正經的錯誤回應（這就是所謂 hallucination）。

要避免 LLM 一本正經的錯誤回應（ hallucination），可以使用 Chain of Thought 或啟用推理模式的提示語（如：「請逐步推理這個問題，最後才給出答案。若無把握請說明。」）．

LLM 給的數字計算的部分，建議都再自己算過一次來確認．

✅從ＡＩ發展史來看：

其實早期 AI 推理就是根據工程師寫的規則來進行演繹、歸納和搜尋（決策樹、搜尋樹之類的）；像是專家系統跟棋類 AI ，那時候 AI 最熱門的新聞就是 AI 戰勝人類棋手，不過那時候 AI 跟一般人生活沒甚麼關聯，應用很有限．

一直到近幾年大語言模型的興起，它不試圖去理解符號的「意義」，而是學習符號與符號之間的「關聯性」；從大量的數據中湧現 (Emerge) 的統計規律，透過統計歸納來產生最符合語言上下文的回應（maximize token likelihood）．

大語言模型以 Transformer 架構為基礎，某種程度也是模仿人腦神經元的連結方式，透過海量數據訓練跟大量自然語言資料訓練而成，LLM 非常擅長處理模糊與複雜性的人類語言，通用性也強；因此走入一般人的生活中．

最後，下面是一些數學推演很強的AI模型（大家不熟也正常，因為用不到啊～）：

✅ 現在數學邏輯推演很強的 AI 模型（代表性）

AlphaCode (by Google DeepMind): 主要目標是解決競技程式設計問題。它理解用自然語言描述的複雜問題（包含邏輯、演算法、資料結構），然後生成正確的程式碼來解決它。它的核心是「演算法邏輯推演」。
Lean : 它本身不像是一個 AI 模型，而是一個互動式定理證明器 (Interactive Theorem Prover) 和一種程式語言。數學家可以用 Lean 寫出電腦可以一步步驗證的、絕對嚴謹的數學證明。AI 在這裡的角色是輔助人類使用 Lean，例如自動尋找證明的下一步或將非形式化的數學語言轉為 Lean 程式碼。它的核心是「形式化數學邏輯」。
AlphaGeometry (by Google DeepMind):是一個專門解決奧林匹亞等級幾何問題的 AI 系統。結合了神經網路語言跟模型符號推演引擎 (Symbolic Deduction Engine)，這個「神經+符號」的混合方法，被認為是未來解決複雜邏輯問題的關鍵。

留言

留言分享你的想法！

《無時效備份沙龍》

5會員

89內容數

混合工程術語與都市情感，有種「我知道這些也許沒用，但還是想保存下來」的情緒。

《無時效備份沙龍》的其他內容