方格子 vocus

Google 嘗試治好 AI 的失憶症：巢狀學習如何重塑持續學習架構

2025/11/11 更新2025/11/11 發佈閱讀 10 分鐘

儘管今日的大型語言模型已具備驚人的能力，但它們卻共同存在一個根本性的缺陷：它們不會「成長」。在完成大規模的預訓練後，這些模型基本上就定型了。你可以和它對話、提供新資訊，甚至看著它在當前對話中完成複雜的推理，但一旦這個對話結束，所有新的知識和經驗都會煙消雲散。

這就像與一位知識淵博、才華橫溢的專家交談，但他卻患有嚴重的「順行性失憶症」（也就是大名鼎鼎的電影《記憶拼圖》主角的症狀），無法形成新的長期記憶。他被永遠困在預訓練完成的那一刻，無法從持續的互動中真正學習。這個「靜態」的本質，是打造真正能自我調整、持續進步AI的最大障礙。當然目前有檢索增強生成(RAG) 或是透過 Agent 搜尋網路資訊等方式外加資訊給 AI 回答，但本篇論文探討的是模型本身所具備的知識。

為了解決這個困境，來自 Google Research 的一篇新論文《Nested Learning: The Illusion of Deep Learning Architectures》提出了一個全新的機器學習方式：「巢狀學習」（Nested Learning, NL）嘗試解決這個問題。

Introducing Nested Learning: A new ML paradigm for continual learning

AI的「順行性失憶症」

為何你剛教給AI的東西，它轉頭就忘？

目前的大型語言模型簡化來說，在兩個地方儲存和處理知識：一是透過大規模資料預訓練、固化在模型參數中的長期記憶；二是存在於當前對話、容量有限的上下文視窗中的短期記憶。

問題就出在，長期記憶和短期記憶之間存在巨大的鴻溝。你在五分鐘前的對話中提供的資訊，既不會被寫入模型的長期記憶，也可能因為上下文視窗的限制而被捨棄短期記憶。論文將此現象類比為「順行性失憶症」，患者保有過去的記憶，卻無法將新的體驗轉化為持久的記憶，導致他們「不斷地體驗著即時的現在，彷彿一切永遠是新的」。

短期記憶（上下文中的資訊）從未被有效固化到長期記憶（模型參數）中，當缺乏這座橋樑，模型就無法從持續的互動中獲取新技能或永久更新其知識庫。這個問題又被稱為「災難性遺忘」（Catastrophic Forgetting），即神經網路在學習新任務時，會傾向於覆蓋或遺忘掉先前學到的知識。

超越「更深就是更好」的迷思

多年來，深度學習領域的主流一直是「更深就是更好」（Deeper is better）。普遍認為，在神經網路中堆疊更多的層數，能直接轉化為更複雜的計算能力和更優異的性能。

然而，本次巢狀學習的研究挑戰了這個觀點。論文認為，單純地堆疊層數（增加深度），並不保證模型能更好地適應新知識或執行更複雜的演算法。有時，這種「深度」反而是一種幻覺。研究提出，模型的真實力量不僅來自於其規模或層數（Depth），更來自其內部學習過程的「層次」（Levels）複雜性，也就是擁有多個以不同速率運作、相互協調的學習迴圈。

解析巢狀學習

「優化器」不只是工具，更是一個學習模組

在傳統的深度學習流程中，通常將優化器（Optimizer）視為一個機械性的工具。它的任務很單純：沿著梯度方向調整模型權重，以最小化訓練誤差。它就像是驅動學習的引擎，但本身不具備智慧。

巢狀學習的觀點徹底顛覆了這種看法。研究指出，這些優化器實際上是「聯想記憶模組」（associative memory modules）。論文特別重新詮釋了梯度下降中常見的「動量」（momentum）項，證明它本身就可以被視為一個「元記憶模組」（meta memory module），其作用是學習如何將目標函數的梯度歷史壓縮並記憶到其參數中。

換個方式思考：如果說模型的主要權重是在學習資料（地圖本身），那麼優化器的動量項就是在學習地形的坡度變化（更新的歷史軌跡），變成一位聰明的領航員，而不是盲目的引擎。它記得哪些方向過去最有效，並將這些經驗壓縮成記憶，以更智慧地指導未來的每一步。

向人腦學習的多層次、多速率系統

巢狀學習的核心思想是：一個複雜的機器學習模型，不應被看作一條線性的、扁平的層級堆疊，而應被視為一個由多個「巢狀的、多層次的、並行的優化問題」組成的集成系統。

這個觀點的靈感直接來自於已知最高效的學習系統：人類大腦。大腦透過「神經可塑性」來實現卓越的持續學習能力，而記憶的鞏固過程並非單一速率。它包含快速的「線上」鞏固（發生在學習後幾乎立刻穩定新資訊）和較慢的「離線」系統鞏固（通常在睡眠中發生，重組並強化記憶以供長期儲存）。

這種「多速率、多層次」的設計，正是巢狀學習希望在人工系統中模擬的。在巢狀學習框架下，模型中的每個組件都可以在不同的時間尺度（或稱更新頻率）上運作。例如，某些參數可能每秒更新數次以應對即時變化，而另一些參數則可能數小時或數天才更新一次，以鞏固更抽象、更穩定的知識。

這個框架甚至提供了看待現有架構的全新視角。論文提出一個驚人的論點：「Transformer 實際上是由具備不同更新頻率的線性層所組成的」。這將Transformer備受稱讚的複雜性，從一系列精巧的專門元件，重新詮釋為簡單元件在不同速度下的巧妙組合，這正是巢狀學習的核心概念。

從理論到實踐：HOPE 架構與連續體記憶系統 (CMS)

基於這個理念，研究人員設計了一個名為「連續體記憶系統」（Continuum Memory System, CMS）的工程實現。CMS明確地將一系列MLP (Multi-Layer Perceptron)區塊設計為以不同的頻率進行更新，讓模型能同時在多個時間尺度上處理和儲存資訊。（MLP區塊簡單來說，是神經網路中一個專門用來「思考」和「加工資訊」的標準化模組。）

CMS是論文中提出的新穎架構「HOPE」的關鍵組件。HOPE 是一個能夠自我參照的學習模組，它整合了CMS，使其能夠利用無限層次的上下文學習能力。簡單來說，HOPE 架構不僅僅是在學習，它還在一個更高的層次上學習「如何」管理和優化自己的記憶。

巢狀學習究竟如何治癒AI的失憶症？

讓我們用一個比喻來拆解這個過程，傳統的LLM就像一家只有兩種資訊狀態的公司：

公司章程 (The Static Parameters)：這是公司成立時就寫好的核心原則，也就是模型的預訓練知識。它非常穩固，但不會輕易改變。
會議室裡的白板 (The Context Window)：這是大家開會時臨時討論的地方，也就是模型的短期記憶。會議中，大家可以在白板上寫滿各種新點子、新數據。但會議一結束，白板一擦，所有資訊就消失了，完全無法影響到「公司章程」。

這就是「順行性失憶症」：會議室（短期記憶）和公司章程（長期記憶）之間，完全沒有溝通管道。

巢狀學習模型：建立從「前線」到「總部」的完整匯報系統

巢狀學習（Nested Learning）透過連續體記憶系統 (CMS)，在公司裡建立了不同層級的管理者，每個層級的工作節奏（更新頻率）都不同：

高速更新的MLP區塊（前線團隊）：這些是最接近「會議室白板」的區塊。它們的更新速度非常快，負責快速吸收、處理當前對話中的新資訊和模式。它們捕捉到的資訊雖然即時，但也可能充滿雜訊、或只是一次性的事件。這一步給了模型「可塑性」，讓它能對新事物做出反應。
中速更新的MLP區塊（部門主管）：這些區塊不會理會每一件雞毛蒜皮的小事。它們會讀取「前線團隊」提交的多份每日報告，並從中過濾、總結出更穩定、更具價值的趨勢。這一步負責「過濾」與「穩定」資訊。
低速更新的MLP區塊（總部決策層）：這是模型最核心、最穩固的知識層，相當於公司的「董事會」或「公司章程」的修訂委員會。只有當一個趨勢被確認是長期且重要的，決策層才會緩慢地將其吸納，並微調公司的核心戰略（也就是模型的長期參數）。這一步提供了「穩定性」(Stability)，確保模型的核心知識不會因為短期的資訊波動而被輕易覆寫，從而避免了「災難性遺忘」。

這個多層次、多速率的系統，搭建了一座橫跨短期記憶和長期記憶的橋樑，讓知識得以在模型內部順暢地流動、過濾與鞏固。

TN科技筆記的觀點

過去，我們把大型語言模型當作一個訓練完成後就封存的「靜態知識資料庫」，只能查詢，無法成長。巢狀學習徹底打破了這個框架。這代表AI有機會是一個動態的「語言模型」。這套內部消化、傳遞、鞏固知識的流程，讓模型在擁抱新知的同時，也能保護核心知識不被輕易遺忘，這是在打造 AGI 的道路上，一個相當有趣的方向。
但如何為數百甚至數千個不同的MLP區塊，設定「正確」的更新頻率？這就像為一個複雜的生物體校準其獨特的生理時鐘。頻率太快，模型可能變得不穩定，容易遺忘；頻率太慢，又會顯得遲鈍，學不會新東西。找到這個黃金平衡點，將會是一個極其困難的工程與理論問題。
另外如果我們已經很難解釋一個「靜態」的大型語言模型是如何做出決策的，那麼一個內部各元件以不同速度學習、遺忘、並相互影響的「動態」系統，其可解釋性將會更加困難。這可能會加劇AI的「黑盒子」問題，讓我們更難以確認它的行為過程。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍AI學習之旅

留言

TN科技筆記(TechNotes)的沙龍

70會員

228內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/08/23

KV Cache 是什麼？AI 工程師如何努力解決記憶體瓶頸，提升推理效率

當我們與任何大型語言模型 (LLM) 互動時，流暢、即時的文字生成速度背後其實隱藏著一道巨大的技術挑戰。模型的每一次回覆，都是一場與時間和硬體限制的賽跑。而這場賽跑的決勝關鍵，就藏在所有 AI 工程師都必須面對的核心技術：「KV Cache」。

2025/08/23

KV Cache 是什麼？AI 工程師如何努力解決記憶體瓶頸，提升推理效率

2025/08/14

AI 開發的進化：從「提示工程」到「情境工程」

你可能聽過「提示工程」(Prompt Engineering)，認為只要學會技巧，就能駕馭強大的大型語言模型。然而，當我們試圖將 AI 從有趣的聊天玩具，轉變為能解決實際問題的可靠工具時，會發現單靠提示工程是遠遠不夠的。這正是「情境工程」(Context Engineering) 登場的時刻。

2025/08/14

AI 開發的進化：從「提示工程」到「情境工程」

2025/07/15

告別 LLM 幻覺與資訊焦慮：解析檢索式增強生成 (RAG) 的演進(下)

深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案，讓你的 AI 更智慧、更可靠！

2025/07/15

告別 LLM 幻覺與資訊焦慮：解析檢索式增強生成 (RAG) 的演進(下)

#AI 的其他內容

AI 特助開聘：Notion 工作空間，終於有自動做事的 AI 員工了｜Notion Custom Agents

金融人類學徒

AI 浪潮下的「毀滅性創新」：解析湯森路透、納斯達克股價重挫的關鍵

與老查一起讀商業好書

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11