在人工智慧(AI)的世界裡,過去幾年我們最常聽到的故事,就是「越大越好」。從 GPT-3 到現在的各種巨型模型,科技巨頭們投入數十億美元,將模型參數從億級推向千億,甚至是兆級。這個被稱為「擴展法則」(Scaling Laws)的信仰,似乎成了 AI 發展的唯一真理:只要模型夠大、資料夠多,AI 就會更聰明。
然而,當所有人都朝著同一個方向狂奔時,一篇研究卻悄悄地為我們展示了另一條截然不同的道路。論文《Less is More: Recursive Reasoning with Tiny Networks》的主角是一個名為「微型遞迴模型」(Tiny Recursive Model, TRM)的 AI,它僅有 700 萬(7M)的參數,不到業界巨型模型的萬分之一。但它卻在一些公認最困難、專門考驗抽象推理能力的基準測試上,取得了更優異的成績。
這篇研究的核心發現是什麼?
簡單來說,這篇研究的核心亮點是:一個僅有 700 萬參數的微型 AI 模型(TRM),在極度考驗邏輯與抽象推理能力的難題(如 ARC-AGI)上,表現顯著優於參數數量是其數萬倍的大型語言模型。這項成果直接挑戰了「模型越大,性能越強」的擴展法則,證明了在特定任務上,精巧的架構設計比單純的規模擴張更有效率。TRM 的成功,歸因於「遞迴」的運作機制與極度簡化的網路結構,讓它能以極低的運算成本,達到深度思考的效果。主要亮點剖析
亮點一:小模型的大驚喜,7M 參數如何超越千億模型?
最令人印象深刻的發現,莫過於 TRM 以極小的規模實現了卓越的性能。在 AI 領域,模型的「參數」數量常被視為其複雜度和潛在能力的指標。一個擁有 6710 億(671B)參數的模型,好比一座擁有數千億個神經元的巨型大腦。而 TRM 的 700 萬(7M)參數,更像昆蟲的大腦。然而,在困難的推理任務上,這隻「昆蟲」卻比巨獸更聰明。
研究團隊將 TRM 投入到幾個公認的 AI 推理能力試金石上,其中最具代表性的就是「抽象推理語料庫」(ARC-AGI)。它不像傳統 AI 任務那樣考驗模式識別,而是透過一系列從未見過的視覺謎題,測試 AI 理解抽象規則並舉一反三的能力。許多任務人類可以輕易解決,但對 AI 來說卻是極大的挑戰,因為它無法靠死記硬背來解決。
在 ARC-AGI-1 這個基準測試中,結果相當驚人:
- TRM-Att (研究模型): 700 萬參數,準確率 44.6%
- HRM (前代模型): 2700 萬參數,準確率 40.3%
- Gemini 2.5 Pro (大型模型): 參數規模巨大,準確率 37.0%
- Deepseek R1 (大型模型): 6710 億參數,準確率 15.8%
這組數據清楚地顯示,TRM 以不到 Deepseek R1 模型 0.01% 的參數規模,達成了將近三倍的準確率。這個結果告訴我們,對於需要深度、專注推理的任務,模型的思考「方式」可能遠比其大腦的「尺寸」更重要。
亮點二:大道至簡,成功的秘訣是「更少」而非「更多」
TRM 並非橫空出世,它是其前身「分層推理模型」(HRM)的改良版。但令人意外的是,改良的方向不是增加功能,而是大幅簡化。研究人員移除了前代模型中許多複雜的設計,結果性能反而顯著提升。
被移除的關鍵複雜性包含:
- 單一、統一的網路:HRM 原本有兩個獨立的網路,分別處理不同層次的任務。TRM 將其合併為一個,並巧妙地透過輸入的內容來區分任務。例如,當模型需要進行推理時,就將問題一起輸入;當模型只需要精煉答案時,就不輸入問題。這個簡單的機制讓一個網路能身兼二職,大幅提升了效率。
- 拋棄複雜的理論辯護:前代模型 HRM 的設計,依賴於一些複雜的生物學類比和不確定的數學定理來證明其合理性。TRM 則拋棄了這些包袱,使其設計理念更簡單、更直觀。
- 精簡的訓練流程:TRM 將訓練過程簡化到每個優化步驟只需要一次前向傳播,而 HRM 則需要兩次。
在追求性能的路上,有時我們需要的不是疊加更多複雜的模組,而是回歸本質,找到最核心、最簡潔的運作機制。TRM 成功證明簡化本身就是一種強大的力量。
亮點三:反直覺的發現,為何網路層數越少,表現反而越好?
在另一個違反直覺的實驗中,研究人員發現,進一步縮小網路的規模,竟然還能提升模型的表現。
在解決「數獨極限」(Sudoku-Extreme)這個任務時,團隊將模型的網路從 4 層減少到 2 層。通常來說,更深的網路意味著更強的學習能力,但這次的結果卻恰恰相反。減少層數後,模型的測試準確率從 79.5% 提升到了 87.4%。
論文推測,這很可能是因為訓練資料有限(該任務只有 1000 個範例)。在資料稀少的情況下,大型、深層的網路很容易「過擬合」(Overfitting)——也就是說,模型過度學習了訓練資料中的噪點和細節,反而失去了對新問題的泛化能力。一個更小、更精簡的網路,由於學習能力有限,反而被迫去學習問題背後真正的通用規則,從而表現得更好。
此外,團隊還發現,針對數獨這種輸入大小固定的任務(9x9 方格),將標準的自注意力機制(Self-Attention)換成更簡單的 MLP-Mixer 架構,準確率也能大幅提升。但這也凸顯了一個關鍵:這個優化並非萬靈丹。在處理像 ARC-AGI 這種情境長度變化較大的任務時,MLP 架構就顯得力不從心。這說明最佳的 AI 架構往往是高度任務相關的,沒有一種設計能通吃所有場景。
亮點四:「反覆思考」的力量,遞迴如何模擬超深度網路?
TRM 成功的核心秘訣,在於其「遞迴」(Recursive)過程。傳統的語言模型像是一個超級大腦,試圖在一次龐大的「前向傳播」中直接給出答案。而 TRM 則不同,它像一個耐心解題的學生,會反覆檢查、修正自己的答案。
這個過程可以被簡化為一個不斷重複的兩步驟循環,最多可達 16 次:
- 更新潛在推理:模型首先根據「問題」、「當前暫擬的解法」以及「上一步的推理過程」,來更新其內部的「潛在推理」(latent reasoning)。
- 更新暫擬解法:接著,模型利用這個新的推理,來提出一個更精進的解法。
透過這個循環,TRM 能夠逐步修正自己的錯誤,一步步逼近正確答案。這個機制讓一個非常小的網路,達到了模擬數百層深度網路的效果,其前身 HRM 已經能模擬 384 層的有效深度,同時又避免了訓練一個真正深度網路所需的大量記憶體和過擬合風險。
TN科技筆記的觀點
TRM 的研究結果雖然令人振奮,但我們仍需客觀看待它的意義與局限。在業界普遍陷入「算力焦慮」和「模型規模競賽」的當下,TRM 仍然證明了演算法和架構的創新,同樣是推動 AI 進步的關鍵引擎。
但我們必須清楚認知到,TRM 目前仍是一個「專才」而非「通才」。它只在高度結構化的邏輯推理任務上表現出色,這顯然不代表它可以直接取代大型語言模型在語言理解、生成、知識問答等泛用領域的能力。研究中也提到,針對不同任務,TRM 的架構需要進行微調,這說明其泛用性仍然相當有限。未來的挑戰在於,這種遞迴、簡化的設計哲學,是否能夠被擴展和應用到更廣泛、更複雜的任務領域?
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)


















