700萬參數模型 TRM 如何在頂級推理難題上，擊敗千億級對手？

2025/10/15 更新2025/10/15 發佈閱讀 8 分鐘

在人工智慧（AI）的世界裡，過去幾年我們最常聽到的故事，就是「越大越好」。從 GPT-3 到現在的各種巨型模型，科技巨頭們投入數十億美元，將模型參數從億級推向千億，甚至是兆級。這個被稱為「擴展法則」（Scaling Laws）的信仰，似乎成了 AI 發展的唯一真理：只要模型夠大、資料夠多，AI 就會更聰明。

然而，當所有人都朝著同一個方向狂奔時，一篇研究卻悄悄地為我們展示了另一條截然不同的道路。論文《Less is More: Recursive Reasoning with Tiny Networks》的主角是一個名為「微型遞迴模型」（Tiny Recursive Model, TRM）的 AI，它僅有 700 萬（7M）的參數，不到業界巨型模型的萬分之一。但它卻在一些公認最困難、專門考驗抽象推理能力的基準測試上，取得了更優異的成績。

這篇研究的核心發現是什麼？

簡單來說，這篇研究的核心亮點是：一個僅有 700 萬參數的微型 AI 模型（TRM），在極度考驗邏輯與抽象推理能力的難題（如 ARC-AGI）上，表現顯著優於參數數量是其數萬倍的大型語言模型。這項成果直接挑戰了「模型越大，性能越強」的擴展法則，證明了在特定任務上，精巧的架構設計比單純的規模擴張更有效率。TRM 的成功，歸因於「遞迴」的運作機制與極度簡化的網路結構，讓它能以極低的運算成本，達到深度思考的效果。

主要亮點剖析

亮點一：小模型的大驚喜，7M 參數如何超越千億模型？

最令人印象深刻的發現，莫過於 TRM 以極小的規模實現了卓越的性能。在 AI 領域，模型的「參數」數量常被視為其複雜度和潛在能力的指標。一個擁有 6710 億（671B）參數的模型，好比一座擁有數千億個神經元的巨型大腦。而 TRM 的 700 萬（7M）參數，更像昆蟲的大腦。然而，在困難的推理任務上，這隻「昆蟲」卻比巨獸更聰明。

研究團隊將 TRM 投入到幾個公認的 AI 推理能力試金石上，其中最具代表性的就是「抽象推理語料庫」（ARC-AGI）。它不像傳統 AI 任務那樣考驗模式識別，而是透過一系列從未見過的視覺謎題，測試 AI 理解抽象規則並舉一反三的能力。許多任務人類可以輕易解決，但對 AI 來說卻是極大的挑戰，因為它無法靠死記硬背來解決。

在 ARC-AGI-1 這個基準測試中，結果相當驚人：

TRM-Att (研究模型): 700 萬參數，準確率 44.6%
HRM (前代模型): 2700 萬參數，準確率 40.3%
Gemini 2.5 Pro (大型模型): 參數規模巨大，準確率 37.0%
Deepseek R1 (大型模型): 6710 億參數，準確率 15.8%

這組數據清楚地顯示，TRM 以不到 Deepseek R1 模型 0.01% 的參數規模，達成了將近三倍的準確率。這個結果告訴我們，對於需要深度、專注推理的任務，模型的思考「方式」可能遠比其大腦的「尺寸」更重要。

亮點二：大道至簡，成功的秘訣是「更少」而非「更多」

TRM 並非橫空出世，它是其前身「分層推理模型」（HRM）的改良版。但令人意外的是，改良的方向不是增加功能，而是大幅簡化。研究人員移除了前代模型中許多複雜的設計，結果性能反而顯著提升。

被移除的關鍵複雜性包含：

單一、統一的網路：HRM 原本有兩個獨立的網路，分別處理不同層次的任務。TRM 將其合併為一個，並巧妙地透過輸入的內容來區分任務。例如，當模型需要進行推理時，就將問題一起輸入；當模型只需要精煉答案時，就不輸入問題。這個簡單的機制讓一個網路能身兼二職，大幅提升了效率。
拋棄複雜的理論辯護：前代模型 HRM 的設計，依賴於一些複雜的生物學類比和不確定的數學定理來證明其合理性。TRM 則拋棄了這些包袱，使其設計理念更簡單、更直觀。
精簡的訓練流程：TRM 將訓練過程簡化到每個優化步驟只需要一次前向傳播，而 HRM 則需要兩次。

在追求性能的路上，有時我們需要的不是疊加更多複雜的模組，而是回歸本質，找到最核心、最簡潔的運作機制。TRM 成功證明簡化本身就是一種強大的力量。

亮點三：反直覺的發現，為何網路層數越少，表現反而越好？

在另一個違反直覺的實驗中，研究人員發現，進一步縮小網路的規模，竟然還能提升模型的表現。

在解決「數獨極限」（Sudoku-Extreme）這個任務時，團隊將模型的網路從 4 層減少到 2 層。通常來說，更深的網路意味著更強的學習能力，但這次的結果卻恰恰相反。減少層數後，模型的測試準確率從 79.5% 提升到了 87.4%。

論文推測，這很可能是因為訓練資料有限（該任務只有 1000 個範例）。在資料稀少的情況下，大型、深層的網路很容易「過擬合」（Overfitting）——也就是說，模型過度學習了訓練資料中的噪點和細節，反而失去了對新問題的泛化能力。一個更小、更精簡的網路，由於學習能力有限，反而被迫去學習問題背後真正的通用規則，從而表現得更好。

此外，團隊還發現，針對數獨這種輸入大小固定的任務（9x9 方格），將標準的自注意力機制（Self-Attention）換成更簡單的 MLP-Mixer 架構，準確率也能大幅提升。但這也凸顯了一個關鍵：這個優化並非萬靈丹。在處理像 ARC-AGI 這種情境長度變化較大的任務時，MLP 架構就顯得力不從心。這說明最佳的 AI 架構往往是高度任務相關的，沒有一種設計能通吃所有場景。

亮點四：「反覆思考」的力量，遞迴如何模擬超深度網路？

TRM 成功的核心秘訣，在於其「遞迴」（Recursive）過程。傳統的語言模型像是一個超級大腦，試圖在一次龐大的「前向傳播」中直接給出答案。而 TRM 則不同，它像一個耐心解題的學生，會反覆檢查、修正自己的答案。

這個過程可以被簡化為一個不斷重複的兩步驟循環，最多可達 16 次：

更新潛在推理：模型首先根據「問題」、「當前暫擬的解法」以及「上一步的推理過程」，來更新其內部的「潛在推理」（latent reasoning）。
更新暫擬解法：接著，模型利用這個新的推理，來提出一個更精進的解法。

透過這個循環，TRM 能夠逐步修正自己的錯誤，一步步逼近正確答案。這個機制讓一個非常小的網路，達到了模擬數百層深度網路的效果，其前身 HRM 已經能模擬 384 層的有效深度，同時又避免了訓練一個真正深度網路所需的大量記憶體和過擬合風險。

TN科技筆記的觀點

TRM 的研究結果雖然令人振奮，但我們仍需客觀看待它的意義與局限。在業界普遍陷入「算力焦慮」和「模型規模競賽」的當下，TRM 仍然證明了演算法和架構的創新，同樣是推動 AI 進步的關鍵引擎。

但我們必須清楚認知到，TRM 目前仍是一個「專才」而非「通才」。它只在高度結構化的邏輯推理任務上表現出色，這顯然不代表它可以直接取代大型語言模型在語言理解、生成、知識問答等泛用領域的能力。研究中也提到，針對不同任務，TRM 的架構需要進行微調，這說明其泛用性仍然相當有限。未來的挑戰在於，這種遞迴、簡化的設計哲學，是否能夠被擴展和應用到更廣泛、更複雜的任務領域？

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

留言分享你的想法！

TN科技筆記(TechNotes)的沙龍

50會員

162內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/10/13

Google DeepMind CodeMender：AI 資安隊友誕生

深度解析 Google DeepMind 最新的 AI 代理 CodeMender。了解它如何利用 Gemini 模型自動偵測、修復甚至重寫程式碼以預防安全漏洞，以及這項技術將如何改變軟體開發與網路安全的未來。

2025/10/13

Google DeepMind CodeMender：AI 資安隊友誕生

2025/10/10

Google 接連推出 Computer Use model、Gemini Enterprise：打造 AI 企業新入口

深度解析 Google 最新的 AI 平台 Gemini Enterprise。它如何透過「電腦使用模型」讓 AI 代理能像人一樣操作軟體，全面自動化枯燥的辦公室工作流程，以及它將為企業帶來哪些機會與挑戰。

2025/10/10

Google 接連推出 Computer Use model、Gemini Enterprise：打造 AI 企業新入口

2025/10/07

OpenAI DevDay：Apps 與 AgentKit 登場，打造 AI 原生應用生態系

OpenAI 推出 AgentKit、Apps in ChatGPT。本文深度解析 AI Agent 與 Make/n8n 代表的自動化 Workflow 核心差異，並釐清 Apps SDK 與底層 MCP 協定的關係，看懂 AI 應用的新時代。

2025/10/07

OpenAI DevDay：Apps 與 AgentKit 登場，打造 AI 原生應用生態系

#AI 的其他內容

《鴻海已經達標5月預期的估值，而2026年還有多少本益比想像價值?》

林位青的沙龍

Google Stitch 生成 UI 介面設計，加速產品原型開發與協作

怪獸科技公司✖️沙龍

從《鬼滅之刃》看「變強」的代價：當成長變成權力與執念，我們都可能變成鬼｜怪獸科技公司

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

Hi 我是 VK~ 很常會看到 Scale AI 的消息，粗淺知道他們是在做資料標記（Data Labeling，或稱數據標記）。近來也有討論說資料會先用完，還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼，他們如何解決資料標記的問題，以及在這領域中還有哪些玩家。這期來聊聊 S

#SCALE

2024/08/12

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

#SCALE

2024/08/12

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19