《The Illusion of Thinking》:蘋果AI團隊這篇報告到底想說什麼?

更新 發佈閱讀 9 分鐘

最近蘋果團隊發了一篇 AI 論文,標題是《The Illusion of Thinking》。他們提出一個尖銳的觀點:

當前號稱具備「推理能力」的 AI 模型(包括 GPT-4、Claude 3、Gemini 等),其實只是玩了一場「進階記憶遊戲」;只要邏輯題稍微複雜一點,這些模型就會崩潰。


🤔 老實說,這根本不意外

對有在看 LLM 演算法的來說,這種結果說穿了根本不需要發 paper 證明。原因很簡單:

  • LLM 不是邏輯推理機器,而是透過統計歸納來產生最符合語言上下文的回應(maximize token likelihood)
  • ChatGPT、Claude、Gemini 這些大語言模型不是從邏輯規則一步步推演答案;它會說:「這題我以前看過的題型是怎麼寫的?照那個 pattern 回答看看。」
  • 當你給它一個需要演繹、遞迴、分支推理的問題,就相當於把奧數題目丟給文科生,結果不讓人意外.

🧠 蘋果發這篇到底想幹嘛?

你問我為什麼蘋果還是要做這個研究?

從6/9的 WWDC 來看,蘋果是用這篇 diss 一下 OpenAI、Anthropic、Google 說別人做的不怎麼樣,來遮掩自己在商用大語言模型這塊的進展緩慢。

下面先整理蘋果這篇摘要內容:


這篇《The Illusion of Thinking》(來自 Apple 團隊)是一份對當前最先進大型語言模型(LLMs)、特別是所謂「Large Reasoning Models (LRMs)」的推理能力,進行系統性、控制式分析的研究。以下是摘要與重點整理:

📌 研究核心問題

雖然大語言模型(如 GPT-4 Turbo、Claude 3.7 Thinking、DeepSeek-R1 等)聲稱具備「推理」能力,並能產生類似人類的 Chain-of-Thought(CoT),但這篇研究質疑:

⚠️ 這些模型真正具備通用推理能力嗎?

🧠 擺脫傳統數學題,改用「可控邏輯謎題」

研究團隊認為現有的數學題評測(如 MATH500、AIME)存在兩大問題:

  1. 資料污染嚴重(模型可能早就見過類似題)
  2. 難以控制題目複雜度與邏輯結構

因此他們採用 4 類邏輯謎題(Puzzle Environments),每種都可細緻調整難度,並可直接評估中間推理過程(非只看答案):

  • 河內塔(Tower of Hanoi)
  • 跳棋換位(Checker Jumping)
  • 過河問題(River Crossing)
  • 積木世界(Blocks World)

📉 三階段推理崩潰現象

他們發現了令人震驚的推理能力崩潰現象

👶 1. 低複雜度(簡單題):

  • 「非推理模型」比「推理模型」更準、更省 Token
  • LRMs 常常「自作聰明」導致冗長與誤判(Overthinking)

🤔 2. 中等複雜度:

  • 推理模型稍有優勢,能找到正解,但耗費大量 Token
  • 表現略優,但不穩定

💀 3. 高複雜度:

  • 所有模型全面崩潰
  • 即使提供充足 Token、明確提示,仍無法推演出正確步驟
  • 甚至「推理 Token 用量反而下降」:模型選擇提早放棄!

🪞 內部推理追蹤分析

作者不只看模型答什麼,而是看它怎麼「想」的

  • 在簡單題中:模型早早猜對,然後繼續亂想
  • 中等題:一開始亂猜,後面慢慢靠近正解
  • 高難題:整段推理軌跡幾乎沒有正解,呈現完全無能的狀態

還有一個驚人的發現:

即使把正確算法明示在 prompt 裡,模型依然照樣犯錯。

這表示:

  • 模型不是「不會找答案」,而是無法執行邏輯規則本身
  • 換句話說:它記得算法,但「做不到算法」。

🤖 LLM 與 LRM 的比較結果

任務難度 vs. 表現最佳模型 原因
簡單任務:LLM(非推理)token 效率高,不會過度思考
中階任務:LRM(推理型)CoT 結構幫助更長遠推理
高階任務:無一生還,LLM/LRM 所有模型推理全崩潰,token 使用反而變少.

LRM 是在 Transformer LLM 基礎上加入「推理訓練與模組」的版本,但本質仍不是真正的邏輯推理模型,因此遇到複雜演繹問題仍然無法處理.

💡 這篇的結論

當前的「推理 AI」模型在真正推理上依然有巨大障礙,它們主要是「套用過去經驗」,而非真正能執行邏輯遞進的演繹機器。


以下是我的個人看法:

蘋果團隊這篇《The Illusion of Thinking》在糾結什麼?

他們其實在指出當前大語言模型架構的本質侷限,可以這麼說:

❝ 如果你訓練出來的模型擁有幾千億參數,看起來能回答詩詞歌賦、程式設計、法律諮詢……那麼,為什麼一個三步邏輯的問題,它卻會崩潰?❞

他們要問的是:

  • 這些模型真的在「理解」嗎?
  • 還是只是在「套用過去經驗」?

✅當前 LLM 主流

目前主流的 LLM(像 GPT-4、Claude 3、Gemini)在文字語意理解跟生成式 AI 非常強,因為這才是主流需求.

同時也有很多做數學邏輯推演很強的 AI 模型(後面會列舉),但並沒有流行起來,同樣是因為市場沒有這方面需求.

而且結合這些「強化推理能力」的整合策略,雖然可以大幅提升 AI 模型在數學與邏輯問題上的準確度與可信度,但必然帶來額外的高昂運算開銷跟更慢反應速度

像是 LRM (reasoning-enhanced LLM)的目的在於補強一般 LLM 缺乏嚴格邏輯推理能力的問題;但通常不會主動「判斷情況」決定是否啟用推理模式而是依賴「外部提示(prompt)」或「任務設定」來啟動其推理能力;原因就如同前面所述「慢、貴、大部分時候沒必要」.

最好笑的是拿這去問 ChatGPT 4o,它會說這就是它們不擅長的題目:

raw-image

✅硬解,跟如何避免

即便如此,問ChatGPT這些他們不會推演的問題-它還是會硬解;它的回答行為遵循(maximize token likelihood)的邏輯:

  1. 從過去訓練過的模式中找出「像是這種問題的答案會長怎樣」;
  2. 試著寫出符合這種風格的回應;
  3. 即使答錯,也會給出一本正經的錯誤回應(這就是所謂 hallucination)。

要避免 LLM 一本正經的錯誤回應( hallucination),可以使用 Chain of Thought 或啟用推理模式的提示語(如:「請逐步推理這個問題,最後才給出答案。若無把握請說明。」).

LLM 給的數字計算的部分,建議都再自己算過一次來確認.

從AI發展史來看:

其實早期 AI 推理就是根據工程師寫的規則來進行演繹、歸納和搜尋(決策樹、搜尋樹之類的);像是專家系統跟棋類 AI ,那時候 AI 最熱門的新聞就是 AI 戰勝人類棋手,不過那時候 AI 跟一般人生活沒甚麼關聯,應用很有限.

一直到近幾年大語言模型的興起,它不試圖去理解符號的「意義」,而是學習符號與符號之間的「關聯性」;從大量的數據中湧現 (Emerge) 的統計規律,透過統計歸納來產生最符合語言上下文的回應(maximize token likelihood).

大語言模型以 Transformer 架構為基礎,某種程度也是模仿人腦神經元的連結方式,透過海量數據訓練跟大量自然語言資料訓練而成,LLM 非常擅長處理模糊與複雜性的人類語言,通用性也強;因此走入一般人的生活中.


最後,下面是一些數學推演很強的AI模型(大家不熟也正常,因為用不到啊~):

✅ 現在數學邏輯推演很強的 AI 模型(代表性)

  • AlphaCode (by Google DeepMind): 主要目標是解決競技程式設計問題。它理解用自然語言描述的複雜問題(包含邏輯、演算法、資料結構),然後生成正確的程式碼來解決它。它的核心是「演算法邏輯推演」。
  • Lean : 它本身不像是一個 AI 模型,而是一個互動式定理證明器 (Interactive Theorem Prover) 和一種程式語言。數學家可以用 Lean 寫出電腦可以一步步驗證的、絕對嚴謹的數學證明。AI 在這裡的角色是輔助人類使用 Lean,例如自動尋找證明的下一步或將非形式化的數學語言轉為 Lean 程式碼。它的核心是「形式化數學邏輯」。
  • AlphaGeometry (by Google DeepMind):是一個專門解決奧林匹亞等級幾何問題的 AI 系統。結合了神經網路語言跟模型符號推演引擎 (Symbolic Deduction Engine),這個「神經+符號」的混合方法,被認為是未來解決複雜邏輯問題的關鍵。



留言
avatar-img
留言分享你的想法!
avatar-img
《無時效備份沙龍》
5會員
89內容數
混合工程術語與都市情感,有種「我知道這些也許沒用,但還是想保存下來」的情緒。
2025/06/08
本文探討特斯拉Dojo AI訓練模組的晶圓級封裝技術。 Dojo採用InFO-SoW技術,將25個AI處理器整合到單一晶圓上,以實現最低延遲和能耗,適用於特斯拉FSD影像訓練的高數據量需求。
Thumbnail
2025/06/08
本文探討特斯拉Dojo AI訓練模組的晶圓級封裝技術。 Dojo採用InFO-SoW技術,將25個AI處理器整合到單一晶圓上,以實現最低延遲和能耗,適用於特斯拉FSD影像訓練的高數據量需求。
Thumbnail
2025/06/07
CoWoS-L封裝技術因應AI晶片高功耗需求之探討,從供電系統整合、大面積載板、高電流與散熱等面向深入分析其必要性與技術挑戰。 對於現在及未來AI晶片的千安級電流、千瓦級功耗-傳統供電方案的限制,並說明為何將PMIC、電感、電容等元件整合至封裝內部是目前最有效解決方案。
Thumbnail
2025/06/07
CoWoS-L封裝技術因應AI晶片高功耗需求之探討,從供電系統整合、大面積載板、高電流與散熱等面向深入分析其必要性與技術挑戰。 對於現在及未來AI晶片的千安級電流、千瓦級功耗-傳統供電方案的限制,並說明為何將PMIC、電感、電容等元件整合至封裝內部是目前最有效解決方案。
Thumbnail
2025/06/07
臺積電的CoWoS-L封裝技術整合PMIC、晶圓級電感和eDTC電容,實現千瓦級AI晶片的封裝內供電整合,解決AI晶片高功率需求的挑戰。 此技術利用16nm FinFET製程PMIC、超薄低寄生電感和高密度電容,有效降低延遲和損耗,支援突發大電流需求。
Thumbnail
2025/06/07
臺積電的CoWoS-L封裝技術整合PMIC、晶圓級電感和eDTC電容,實現千瓦級AI晶片的封裝內供電整合,解決AI晶片高功率需求的挑戰。 此技術利用16nm FinFET製程PMIC、超薄低寄生電感和高密度電容,有效降低延遲和損耗,支援突發大電流需求。
Thumbnail
看更多
你可能也想看
Thumbnail
蘋果商品策略背後的商業價值是本文的關鍵,透過對 AI 裝置端執行、不同於其他競爭對手的佈局和對自身生成式 AI 架構的深度整合。鼓勵讀者不僅要知道怎麼做(know-how),還要了解為什麼這樣做(know-why),不斷挑戰現況。
Thumbnail
蘋果商品策略背後的商業價值是本文的關鍵,透過對 AI 裝置端執行、不同於其他競爭對手的佈局和對自身生成式 AI 架構的深度整合。鼓勵讀者不僅要知道怎麼做(know-how),還要了解為什麼這樣做(know-why),不斷挑戰現況。
Thumbnail
記者:「上次採訪的萬物溝通軟體,在網路引爆熱潮,不過大部都是拿來當笑話!害我被老板給訓了一頓,還要我再找時間來採訪博士,然後一再叮嚀千萬不能再採訪超級電腦一號了,就怕碰見上次的「程式故障」!」 摩爾博士:「上次的確是失禮了!本想開個玩笑卻惹起這麼大的風波,還有人打電話到我們研究機構,說我們有沒有通
Thumbnail
記者:「上次採訪的萬物溝通軟體,在網路引爆熱潮,不過大部都是拿來當笑話!害我被老板給訓了一頓,還要我再找時間來採訪博士,然後一再叮嚀千萬不能再採訪超級電腦一號了,就怕碰見上次的「程式故障」!」 摩爾博士:「上次的確是失禮了!本想開個玩笑卻惹起這麼大的風波,還有人打電話到我們研究機構,說我們有沒有通
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
作者認為AI,它不特屬於哪一個產業,在一定時間成熟之後,它充斥你我生活之中,就是像水電一樣的自然。有很多人還搞不清楚它的未來發展到哪裡? 當這變化還很劇烈時,過早投入反而浪費時間與成本,所以作者的洞見是:什麼是你我最珍貴的價值?
Thumbnail
Apple 最新的系統系列,在今天台灣時間 11 日凌晨正式亮相了,只能說這波 AI 操作真的有點厲害啊。
Thumbnail
Apple 最新的系統系列,在今天台灣時間 11 日凌晨正式亮相了,只能說這波 AI 操作真的有點厲害啊。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
當然以微軟的角度來說,將AI PC限縮成Copilot+ PC有利於將Copliot = AI的話語權綁在自己身上,畢竟其認定最大對手蘋果也開始使用AI PC一詞,與其在同個領域搶話語權,不如把重心移到自家的Copilot上,所以這次微軟也發表了一系列Copilot的功能
Thumbnail
當然以微軟的角度來說,將AI PC限縮成Copilot+ PC有利於將Copliot = AI的話語權綁在自己身上,畢竟其認定最大對手蘋果也開始使用AI PC一詞,與其在同個領域搶話語權,不如把重心移到自家的Copilot上,所以這次微軟也發表了一系列Copilot的功能
Thumbnail
AI PC 硬體 + AI OS + AI PC 摘要
Thumbnail
AI PC 硬體 + AI OS + AI PC 摘要
Thumbnail
蘋果發佈了第一支 Mac 的電視廣告,諷刺當時 IBM 以科技監控人類;而蘋果則欲發起革命。40年後…西元2024年,生活中已廣泛使用AI人工智慧。人類訓練AI進行資訊監控,一名男子戴著VR頭盔,穿著連身式裝扮包覆著全身。人類沉浸於AI娛樂時,也暴露了個人隱私及訓練了AI老大哥的智能邏輯資料庫。
Thumbnail
蘋果發佈了第一支 Mac 的電視廣告,諷刺當時 IBM 以科技監控人類;而蘋果則欲發起革命。40年後…西元2024年,生活中已廣泛使用AI人工智慧。人類訓練AI進行資訊監控,一名男子戴著VR頭盔,穿著連身式裝扮包覆著全身。人類沉浸於AI娛樂時,也暴露了個人隱私及訓練了AI老大哥的智能邏輯資料庫。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News