儘管今日的大型語言模型已具備驚人的能力,但它們卻共同存在一個根本性的缺陷:它們不會「成長」。在完成大規模的預訓練後,這些模型基本上就定型了。你可以和它對話、提供新資訊,甚至看著它在當前對話中完成複雜的推理,但一旦這個對話結束,所有新的知識和經驗都會煙消雲散。
這就像與一位知識淵博、才華橫溢的專家交談,但他卻患有嚴重的「順行性失憶症」(也就是大名鼎鼎的電影《記憶拼圖》主角的症狀),無法形成新的長期記憶。他被永遠困在預訓練完成的那一刻,無法從持續的互動中真正學習。這個「靜態」的本質,是打造真正能自我調整、持續進步AI的最大障礙。當然目前有檢索增強生成(RAG) 或是透過 Agent 搜尋網路資訊等方式外加資訊給 AI 回答,但本篇論文探討的是模型本身所具備的知識。
為了解決這個困境,來自 Google Research 的一篇新論文《Nested Learning: The Illusion of Deep Learning Architectures》提出了一個全新的機器學習方式:「巢狀學習」(Nested Learning, NL)嘗試解決這個問題。Introducing Nested Learning: A new ML paradigm for continual learning

AI的「順行性失憶症」
為何你剛教給AI的東西,它轉頭就忘?
目前的大型語言模型簡化來說,在兩個地方儲存和處理知識:一是透過大規模資料預訓練、固化在模型參數中的長期記憶;二是存在於當前對話、容量有限的上下文視窗中的短期記憶。
問題就出在,長期記憶和短期記憶之間存在巨大的鴻溝。你在五分鐘前的對話中提供的資訊,既不會被寫入模型的長期記憶,也可能因為上下文視窗的限制而被捨棄短期記憶。論文將此現象類比為「順行性失憶症」,患者保有過去的記憶,卻無法將新的體驗轉化為持久的記憶,導致他們「不斷地體驗著即時的現在,彷彿一切永遠是新的」。
短期記憶(上下文中的資訊)從未被有效固化到長期記憶(模型參數)中,當缺乏這座橋樑,模型就無法從持續的互動中獲取新技能或永久更新其知識庫。這個問題又被稱為「災難性遺忘」(Catastrophic Forgetting),即神經網路在學習新任務時,會傾向於覆蓋或遺忘掉先前學到的知識。
超越「更深就是更好」的迷思
多年來,深度學習領域的主流一直是「更深就是更好」(Deeper is better)。普遍認為,在神經網路中堆疊更多的層數,能直接轉化為更複雜的計算能力和更優異的性能。
然而,本次巢狀學習的研究挑戰了這個觀點。論文認為,單純地堆疊層數(增加深度),並不保證模型能更好地適應新知識或執行更複雜的演算法。有時,這種「深度」反而是一種幻覺。研究提出,模型的真實力量不僅來自於其規模或層數(Depth),更來自其內部學習過程的「層次」(Levels)複雜性,也就是擁有多個以不同速率運作、相互協調的學習迴圈。
解析巢狀學習
「優化器」不只是工具,更是一個學習模組
在傳統的深度學習流程中,通常將優化器(Optimizer) 視為一個機械性的工具。它的任務很單純:沿著梯度方向調整模型權重,以最小化訓練誤差。它就像是驅動學習的引擎,但本身不具備智慧。
巢狀學習的觀點徹底顛覆了這種看法。研究指出,這些優化器實際上是「聯想記憶模組」(associative memory modules)。論文特別重新詮釋了梯度下降中常見的「動量」(momentum)項,證明它本身就可以被視為一個「元記憶模組」(meta memory module),其作用是學習如何將目標函數的梯度歷史壓縮並記憶到其參數中。
換個方式思考:如果說模型的主要權重是在學習資料(地圖本身),那麼優化器的動量項就是在學習地形的坡度變化(更新的歷史軌跡),變成一位聰明的領航員,而不是盲目的引擎。它記得哪些方向過去最有效,並將這些經驗壓縮成記憶,以更智慧地指導未來的每一步。
向人腦學習的多層次、多速率系統
巢狀學習的核心思想是:一個複雜的機器學習模型,不應被看作一條線性的、扁平的層級堆疊,而應被視為一個由多個「巢狀的、多層次的、並行的優化問題」組成的集成系統。
這個觀點的靈感直接來自於已知最高效的學習系統:人類大腦。大腦透過「神經可塑性」來實現卓越的持續學習能力,而記憶的鞏固過程並非單一速率。它包含快速的「線上」鞏固(發生在學習後幾乎立刻穩定新資訊)和較慢的「離線」系統鞏固(通常在睡眠中發生,重組並強化記憶以供長期儲存)。
這種「多速率、多層次」的設計,正是巢狀學習希望在人工系統中模擬的。在巢狀學習框架下,模型中的每個組件都可以在不同的時間尺度(或稱更新頻率)上運作。例如,某些參數可能每秒更新數次以應對即時變化,而另一些參數則可能數小時或數天才更新一次,以鞏固更抽象、更穩定的知識。
這個框架甚至提供了看待現有架構的全新視角。論文提出一個驚人的論點:「Transformer 實際上是由具備不同更新頻率的線性層所組成的」。這將Transformer備受稱讚的複雜性,從一系列精巧的專門元件,重新詮釋為簡單元件在不同速度下的巧妙組合,這正是巢狀學習的核心概念。
從理論到實踐:HOPE 架構與連續體記憶系統 (CMS)
基於這個理念,研究人員設計了一個名為「連續體記憶系統」(Continuum Memory System, CMS)的工程實現。CMS明確地將一系列MLP (Multi-Layer Perceptron)區塊設計為以不同的頻率進行更新,讓模型能同時在多個時間尺度上處理和儲存資訊。(MLP區塊簡單來說,是神經網路中一個專門用來「思考」和「加工資訊」的標準化模組。)
CMS是論文中提出的新穎架構「HOPE」的關鍵組件。HOPE 是一個能夠自我參照的學習模組,它整合了CMS,使其能夠利用無限層次的上下文學習能力。簡單來說,HOPE 架構不僅僅是在學習,它還在一個更高的層次上學習「如何」管理和優化自己的記憶。
巢狀學習究竟如何治癒AI的失憶症?
讓我們用一個比喻來拆解這個過程,傳統的LLM就像一家只有兩種資訊狀態的公司:
- 公司章程 (The Static Parameters):這是公司成立時就寫好的核心原則,也就是模型的預訓練知識。它非常穩固,但不會輕易改變。
- 會議室裡的白板 (The Context Window):這是大家開會時臨時討論的地方,也就是模型的短期記憶。會議中,大家可以在白板上寫滿各種新點子、新數據。但會議一結束,白板一擦,所有資訊就消失了,完全無法影響到「公司章程」。
這就是「順行性失憶症」:會議室(短期記憶)和公司章程(長期記憶)之間,完全沒有溝通管道。
巢狀學習模型:建立從「前線」到「總部」的完整匯報系統
巢狀學習(Nested Learning)透過連續體記憶系統 (CMS),在公司裡建立了不同層級的管理者,每個層級的工作節奏(更新頻率)都不同:
- 高速更新的MLP區塊(前線團隊):這些是最接近「會議室白板」的區塊。它們的更新速度非常快,負責快速吸收、處理當前對話中的新資訊和模式。它們捕捉到的資訊雖然即時,但也可能充滿雜訊、或只是一次性的事件。這一步給了模型「可塑性」,讓它能對新事物做出反應。
- 中速更新的MLP區塊(部門主管):這些區塊不會理會每一件雞毛蒜皮的小事。它們會讀取「前線團隊」提交的多份每日報告,並從中過濾、總結出更穩定、更具價值的趨勢。這一步負責「過濾」與「穩定」資訊。
- 低速更新的MLP區塊 (總部決策層):這是模型最核心、最穩固的知識層,相當於公司的「董事會」或「公司章程」的修訂委員會。只有當一個趨勢被確認是長期且重要的,決策層才會緩慢地將其吸納,並微調公司的核心戰略(也就是模型的長期參數)。這一步提供了「穩定性」(Stability),確保模型的核心知識不會因為短期的資訊波動而被輕易覆寫,從而避免了「災難性遺忘」。
這個多層次、多速率的系統,搭建了一座橫跨短期記憶和長期記憶的橋樑,讓知識得以在模型內部順暢地流動、過濾與鞏固。
TN科技筆記的觀點
- 過去,我們把大型語言模型當作一個訓練完成後就封存的「靜態知識資料庫」,只能查詢,無法成長。巢狀學習徹底打破了這個框架。這代表AI有機會是一個動態的「語言模型」。這套內部消化、傳遞、鞏固知識的流程,讓模型在擁抱新知的同時,也能保護核心知識不被輕易遺忘,這是在打造 AGI 的道路上,一個相當有趣的方向。
- 但如何為數百甚至數千個不同的MLP區塊,設定「正確」的更新頻率?這就像為一個複雜的生物體校準其獨特的生理時鐘。頻率太快,模型可能變得不穩定,容易遺忘;頻率太慢,又會顯得遲鈍,學不會新東西。找到這個黃金平衡點,將會是一個極其困難的工程與理論問題。
- 另外如果我們已經很難解釋一個「靜態」的大型語言模型是如何做出決策的,那麼一個內部各元件以不同速度學習、遺忘、並相互影響的「動態」系統,其可解釋性將會更加困難。這可能會加劇AI的「黑盒子」問題,讓我們更難以確認它的行為過程。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)














