Google 嘗試治好 AI 的失憶症:巢狀學習如何重塑持續學習架構

更新 發佈閱讀 10 分鐘

儘管今日的大型語言模型已具備驚人的能力,但它們卻共同存在一個根本性的缺陷:它們不會「成長」。在完成大規模的預訓練後,這些模型基本上就定型了。你可以和它對話、提供新資訊,甚至看著它在當前對話中完成複雜的推理,但一旦這個對話結束,所有新的知識和經驗都會煙消雲散。

這就像與一位知識淵博、才華橫溢的專家交談,但他卻患有嚴重的「順行性失憶症」(也就是大名鼎鼎的電影《記憶拼圖》主角的症狀),無法形成新的長期記憶。他被永遠困在預訓練完成的那一刻,無法從持續的互動中真正學習。這個「靜態」的本質,是打造真正能自我調整、持續進步AI的最大障礙。當然目前有檢索增強生成(RAG) 或是透過 Agent 搜尋網路資訊等方式外加資訊給 AI 回答,但本篇論文探討的是模型本身所具備的知識。

為了解決這個困境,來自 Google Research 的一篇新論文《Nested Learning: The Illusion of Deep Learning Architectures》提出了一個全新的機器學習方式:「巢狀學習」(Nested Learning, NL)嘗試解決這個問題。

Introducing Nested Learning: A new ML paradigm for continual learning

raw-image

AI的「順行性失憶症」

為何你剛教給AI的東西,它轉頭就忘?

目前的大型語言模型簡化來說,在兩個地方儲存和處理知識:一是透過大規模資料預訓練、固化在模型參數中的長期記憶;二是存在於當前對話、容量有限的上下文視窗中的短期記憶。

問題就出在,長期記憶和短期記憶之間存在巨大的鴻溝。你在五分鐘前的對話中提供的資訊,既不會被寫入模型的長期記憶,也可能因為上下文視窗的限制而被捨棄短期記憶。論文將此現象類比為「順行性失憶症」,患者保有過去的記憶,卻無法將新的體驗轉化為持久的記憶,導致他們「不斷地體驗著即時的現在,彷彿一切永遠是新的」。

短期記憶(上下文中的資訊)從未被有效固化到長期記憶(模型參數)中,當缺乏這座橋樑,模型就無法從持續的互動中獲取新技能或永久更新其知識庫。這個問題又被稱為「災難性遺忘」(Catastrophic Forgetting),即神經網路在學習新任務時,會傾向於覆蓋或遺忘掉先前學到的知識。

超越「更深就是更好」的迷思

多年來,深度學習領域的主流一直是「更深就是更好」(Deeper is better)。普遍認為,在神經網路中堆疊更多的層數,能直接轉化為更複雜的計算能力和更優異的性能。

然而,本次巢狀學習的研究挑戰了這個觀點。論文認為,單純地堆疊層數(增加深度),並不保證模型能更好地適應新知識或執行更複雜的演算法。有時,這種「深度」反而是一種幻覺。研究提出,模型的真實力量不僅來自於其規模或層數(Depth),更來自其內部學習過程的「層次」(Levels)複雜性,也就是擁有多個以不同速率運作、相互協調的學習迴圈。

解析巢狀學習

「優化器」不只是工具,更是一個學習模組

在傳統的深度學習流程中,通常將優化器(Optimizer) 視為一個機械性的工具。它的任務很單純:沿著梯度方向調整模型權重,以最小化訓練誤差。它就像是驅動學習的引擎,但本身不具備智慧。

巢狀學習的觀點徹底顛覆了這種看法。研究指出,這些優化器實際上是「聯想記憶模組」(associative memory modules)。論文特別重新詮釋了梯度下降中常見的「動量」(momentum)項,證明它本身就可以被視為一個「元記憶模組」(meta memory module),其作用是學習如何將目標函數的梯度歷史壓縮並記憶到其參數中。

換個方式思考:如果說模型的主要權重是在學習資料(地圖本身),那麼優化器的動量項就是在學習地形的坡度變化(更新的歷史軌跡),變成一位聰明的領航員,而不是盲目的引擎。它記得哪些方向過去最有效,並將這些經驗壓縮成記憶,以更智慧地指導未來的每一步。

向人腦學習的多層次、多速率系統

巢狀學習的核心思想是:一個複雜的機器學習模型,不應被看作一條線性的、扁平的層級堆疊,而應被視為一個由多個「巢狀的、多層次的、並行的優化問題」組成的集成系統。

這個觀點的靈感直接來自於已知最高效的學習系統:人類大腦。大腦透過「神經可塑性」來實現卓越的持續學習能力,而記憶的鞏固過程並非單一速率。它包含快速的「線上」鞏固(發生在學習後幾乎立刻穩定新資訊)和較慢的「離線」系統鞏固(通常在睡眠中發生,重組並強化記憶以供長期儲存)。

這種「多速率、多層次」的設計,正是巢狀學習希望在人工系統中模擬的。在巢狀學習框架下,模型中的每個組件都可以在不同的時間尺度(或稱更新頻率)上運作。例如,某些參數可能每秒更新數次以應對即時變化,而另一些參數則可能數小時或數天才更新一次,以鞏固更抽象、更穩定的知識。

這個框架甚至提供了看待現有架構的全新視角。論文提出一個驚人的論點:「Transformer 實際上是由具備不同更新頻率的線性層所組成的」。這將Transformer備受稱讚的複雜性,從一系列精巧的專門元件,重新詮釋為簡單元件在不同速度下的巧妙組合,這正是巢狀學習的核心概念。

從理論到實踐:HOPE 架構與連續體記憶系統 (CMS)

基於這個理念,研究人員設計了一個名為「連續體記憶系統」(Continuum Memory System, CMS)的工程實現。CMS明確地將一系列MLP (Multi-Layer Perceptron)區塊設計為以不同的頻率進行更新,讓模型能同時在多個時間尺度上處理和儲存資訊。(MLP區塊簡單來說,是神經網路中一個專門用來「思考」和「加工資訊」的標準化模組。)

CMS是論文中提出的新穎架構「HOPE」的關鍵組件。HOPE 是一個能夠自我參照的學習模組,它整合了CMS,使其能夠利用無限層次的上下文學習能力。簡單來說,HOPE 架構不僅僅是在學習,它還在一個更高的層次上學習「如何」管理和優化自己的記憶。

巢狀學習究竟如何治癒AI的失憶症?

讓我們用一個比喻來拆解這個過程,傳統的LLM就像一家只有兩種資訊狀態的公司:

  1. 公司章程 (The Static Parameters):這是公司成立時就寫好的核心原則,也就是模型的預訓練知識。它非常穩固,但不會輕易改變。
  2. 會議室裡的白板 (The Context Window):這是大家開會時臨時討論的地方,也就是模型的短期記憶。會議中,大家可以在白板上寫滿各種新點子、新數據。但會議一結束,白板一擦,所有資訊就消失了,完全無法影響到「公司章程」。

這就是「順行性失憶症」:會議室(短期記憶)和公司章程(長期記憶)之間,完全沒有溝通管道。

巢狀學習模型:建立從「前線」到「總部」的完整匯報系統

巢狀學習(Nested Learning)透過連續體記憶系統 (CMS),在公司裡建立了不同層級的管理者,每個層級的工作節奏(更新頻率)都不同:

  1. 高速更新的MLP區塊(前線團隊):這些是最接近「會議室白板」的區塊。它們的更新速度非常快,負責快速吸收、處理當前對話中的新資訊和模式。它們捕捉到的資訊雖然即時,但也可能充滿雜訊、或只是一次性的事件。這一步給了模型「可塑性」,讓它能對新事物做出反應。
  2. 中速更新的MLP區塊(部門主管):這些區塊不會理會每一件雞毛蒜皮的小事。它們會讀取「前線團隊」提交的多份每日報告,並從中過濾、總結出更穩定、更具價值的趨勢。這一步負責「過濾」與「穩定」資訊。
  3. 低速更新的MLP區塊 (總部決策層):這是模型最核心、最穩固的知識層,相當於公司的「董事會」或「公司章程」的修訂委員會。只有當一個趨勢被確認是長期且重要的,決策層才會緩慢地將其吸納,並微調公司的核心戰略(也就是模型的長期參數)。這一步提供了「穩定性」(Stability),確保模型的核心知識不會因為短期的資訊波動而被輕易覆寫,從而避免了「災難性遺忘」。

這個多層次、多速率的系統,搭建了一座橫跨短期記憶和長期記憶的橋樑,讓知識得以在模型內部順暢地流動、過濾與鞏固。

TN科技筆記的觀點

  • 過去,我們把大型語言模型當作一個訓練完成後就封存的「靜態知識資料庫」,只能查詢,無法成長。巢狀學習徹底打破了這個框架。這代表AI有機會是一個動態的「語言模型」。這套內部消化、傳遞、鞏固知識的流程,讓模型在擁抱新知的同時,也能保護核心知識不被輕易遺忘,這是在打造 AGI 的道路上,一個相當有趣的方向。
  • ​但如何為數百甚至數千個不同的MLP區塊,設定「正確」的更新頻率?這就像為一個複雜的生物體校準其獨特的生理時鐘。頻率太快,模型可能變得不穩定,容易遺忘;頻率太慢,又會顯得遲鈍,學不會新東西。找到這個黃金平衡點,將會是一個極其困難的工程與理論問題。
  • 另外如果我們已經很難解釋一個「靜態」的大型語言模型是如何做出決策的,那麼一個內部各元件以不同速度學習、遺忘、並相互影響的「動態」系統,其可解釋性將會更加困難。這可能會加劇AI的「黑盒子」問題,讓我們更難以確認它的行為過程。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
63會員
201內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/08/23
當我們與任何大型語言模型 (LLM) 互動時,流暢、即時的文字生成速度背後其實隱藏著一道巨大的技術挑戰。模型的每一次回覆,都是一場與時間和硬體限制的賽跑。而這場賽跑的決勝關鍵,就藏在所有 AI 工程師都必須面對的核心技術:「KV Cache」。
2025/08/23
當我們與任何大型語言模型 (LLM) 互動時,流暢、即時的文字生成速度背後其實隱藏著一道巨大的技術挑戰。模型的每一次回覆,都是一場與時間和硬體限制的賽跑。而這場賽跑的決勝關鍵,就藏在所有 AI 工程師都必須面對的核心技術:「KV Cache」。
2025/08/14
你可能聽過「提示工程」(Prompt Engineering),認為只要學會技巧,就能駕馭強大的大型語言模型。然而,當我們試圖將 AI 從有趣的聊天玩具,轉變為能解決實際問題的可靠工具時,會發現單靠提示工程是遠遠不夠的。這正是「情境工程」(Context Engineering) 登場的時刻。
2025/08/14
你可能聽過「提示工程」(Prompt Engineering),認為只要學會技巧,就能駕馭強大的大型語言模型。然而,當我們試圖將 AI 從有趣的聊天玩具,轉變為能解決實際問題的可靠工具時,會發現單靠提示工程是遠遠不夠的。這正是「情境工程」(Context Engineering) 登場的時刻。
2025/07/15
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
2025/07/15
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
看更多
你可能也想看
Thumbnail
[ChatGPT] 發想、快速研究的最佳助手 [Reclaim.ai] 排程和習慣管理的時間大師 [Fireflies.ai] 會議記錄與摘要的全能幫手 [Murf AI] 高效生成自然語音旁白 [Frase AI] 創作與SEO優化的利器 ...還有更多不可錯過的科技洞察與未來趨勢!
Thumbnail
[ChatGPT] 發想、快速研究的最佳助手 [Reclaim.ai] 排程和習慣管理的時間大師 [Fireflies.ai] 會議記錄與摘要的全能幫手 [Murf AI] 高效生成自然語音旁白 [Frase AI] 創作與SEO優化的利器 ...還有更多不可錯過的科技洞察與未來趨勢!
Thumbnail
上篇文章《奧特曼傳》聚焦 OpenAI 如何從「讓 AI 造福人類」的理想出發,演變成資本與權力的角逐賽,奧特曼與馬斯克分道揚鑣後,OpenAI 與微軟攜手推出 ChatGPT,席捲全球;然而,真正的較量並不僅限於兩人,而是以「AI 霸主」之名,在更廣闊的戰場上展開......
Thumbnail
上篇文章《奧特曼傳》聚焦 OpenAI 如何從「讓 AI 造福人類」的理想出發,演變成資本與權力的角逐賽,奧特曼與馬斯克分道揚鑣後,OpenAI 與微軟攜手推出 ChatGPT,席捲全球;然而,真正的較量並不僅限於兩人,而是以「AI 霸主」之名,在更廣闊的戰場上展開......
Thumbnail
在AI迅速發展的當下,如何應對這場顛覆成為重要課題。萬維鋼在其著作《拐點:站在 AI 顛覆世界的前夜》中說明AI如何挑戰Google的搜尋霸主地位,並探討生成式AI的限制,以及在這個變革中個人如何利用AI提升決策能力,掌握未來的主導權。人要比AI凶!
Thumbnail
在AI迅速發展的當下,如何應對這場顛覆成為重要課題。萬維鋼在其著作《拐點:站在 AI 顛覆世界的前夜》中說明AI如何挑戰Google的搜尋霸主地位,並探討生成式AI的限制,以及在這個變革中個人如何利用AI提升決策能力,掌握未來的主導權。人要比AI凶!
Thumbnail
本篇文章探討百度在AI領域的核心戰略,包括閉源大模型的採用、AI as a Service的市場潛力以及智能體的廣泛應用。對於AI商業化,百度創辦人李彥宏強調應用的深度與效用才是關鍵。此外,百度如何在面對全球AI價格戰中,選擇不同的發展路徑和商業模式,將對未來的市場發展具有重要影響。
Thumbnail
本篇文章探討百度在AI領域的核心戰略,包括閉源大模型的採用、AI as a Service的市場潛力以及智能體的廣泛應用。對於AI商業化,百度創辦人李彥宏強調應用的深度與效用才是關鍵。此外,百度如何在面對全球AI價格戰中,選擇不同的發展路徑和商業模式,將對未來的市場發展具有重要影響。
Thumbnail
曾經是中國互聯網巨頭 BAT 市值第一、中國最大搜尋引擎的百度,如今市值卻跌至其他兩間公司的不到十分之一。近年來,百度加大對 AI(文心一言、阿波羅)和自駕車技術(蘿蔔快跑)的投入,積極轉型為「AI 公司」。面對阿里巴巴和騰訊等強大對手的挑戰,百度如何在 AI 時代重新站穩腳跟,甚至逆勢崛起?
Thumbnail
曾經是中國互聯網巨頭 BAT 市值第一、中國最大搜尋引擎的百度,如今市值卻跌至其他兩間公司的不到十分之一。近年來,百度加大對 AI(文心一言、阿波羅)和自駕車技術(蘿蔔快跑)的投入,積極轉型為「AI 公司」。面對阿里巴巴和騰訊等強大對手的挑戰,百度如何在 AI 時代重新站穩腳跟,甚至逆勢崛起?
Thumbnail
本文分析了過去20年全球市值排行榜的變化,特別關注科技巨頭的崛起和影響力。透過觀察不同時期的市值前十大公司,以及展望未來 AI 時代,對市場的影響與可能的變革。
Thumbnail
本文分析了過去20年全球市值排行榜的變化,特別關注科技巨頭的崛起和影響力。透過觀察不同時期的市值前十大公司,以及展望未來 AI 時代,對市場的影響與可能的變革。
Thumbnail
這次的內容,我將分享在政大聽完 OpenAI 的執行長技術顧問(Technical Advisor to the CEO) Dr. Mohammad Bavarian 在台灣的第一場演講,透過 OpenAI 官方的視角,探討人工通用智慧(AGI)的關鍵技術和未來趨勢。
Thumbnail
這次的內容,我將分享在政大聽完 OpenAI 的執行長技術顧問(Technical Advisor to the CEO) Dr. Mohammad Bavarian 在台灣的第一場演講,透過 OpenAI 官方的視角,探討人工通用智慧(AGI)的關鍵技術和未來趨勢。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News