Google 最新發表的突破性論文《Titans: Learning to Memorize at Test Time》,破解如何賦予模型「類人」記憶的密碼。

名為「泰坦 (Titans)」的新型神經網路架構,解決現有 Transformer 模型在處理長序列資料時效率低下的問題。核心概念在於結合兩種記憶模組:
一、 Transformer 模型的限制現今多數語言模型,如 OpenAI、Anthropic、Llama、DeepSeek 等,皆奠基於 Transformer 架構和注意力機制,因其具備優異的上下文學習能力及大規模學習能力,使其成為當前最先進的技術。
然而,Transformer 架構存在一個主要缺陷:上下文窗口大小的限制。由於其二次時間和記憶體複雜度,當輸入的資訊量增加時,模型的效能會下降。
“隨著上下文窗口的增加,基於 Transformer 架構的模型會產生巨大的負擔,這限制了上下文窗口的大小。”
二、 TITANS:模擬人腦記憶
TITANS 的目標是藉由模擬人腦的多層級記憶系統 (短期、長期、元記憶) 來解決此問題,並讓這些不同類型的記憶協同運作。
“我們認為,在一個有效率的學習範例中,類似於人腦,存在著截然不同卻又相互關聯的記憶模組,每個模組負責學習過程中至關重要的組成部分。”

TITANS 的主要特點
- 測試時間記憶 (Test-time Memorization): TITANS 模型在推理階段 (即接收提示並生成回應的過程) 學習如何記憶和儲存資料,而非在預先訓練階段。
- “我們設計了一個長期神經記憶模組,它可以有效地在測試時間學習記憶。”
- 驚奇機制 (Surprise Mechanism): 模仿人腦記憶偏向於記住令人驚奇的事件,TITANS 模型也內建了驚奇機制,當遇到與預期不符的資訊時,模型會將其視為需要記憶的重點。
- “我們設計了這個記憶模組,以便讓違反預期的事件(簡單來說就是令人驚奇的事件)更容易被記住。”
- 遺忘機制 (Forgetting Mechanism): 為了避免記憶過載,TITANS 模型也包含遺忘機制,會隨著時間推移逐漸淡化不重要的記憶。
- “在處理非常大的序列(數百萬個標記)時,管理哪些過去資訊應該被遺忘至關重要。為此,我們使用了一種自適應遺忘機制,允許記憶忘記不再需要的資訊,從而更好地管理記憶的有限容量。”
TITANS 架構的三種變體
論文中提出了三種 TITANS 架構變體,各有其優缺點和適用場景:
- 記憶作為上下文 (Memory as Context,MAC): 將記憶作為當前資訊的上下文,適合需要詳細歷史背景的任務。
- 記憶作為閘門 (Memory as Gate,MAG): 利用閘門機制來調節短期和長期記憶的影響,更靈活且可在短期和長期注意力之間切換。
- 記憶作為層級 (Memory as Layer,MAL): 將記憶整合為深度神經網路的一層,效率最高,但效能略遜於其他兩種變體。
實驗結果
TITANS 模型在多項基準測試中表現出色,包括:
- 語言建模和常識推理: TITANS 模型在多項語言建模和常識推理任務中,表現優於其他遞迴模型和 Transformer 模型。
- 大海撈針測試 (Needle in a Haystack): TITANS 模型在超長上下文窗口中,能有效地記憶和提取深層資訊,展現出優異的長期記憶能力。
- 時間序列預測和 DNA 建模: TITANS 模型在時間序列預測和 DNA 建模任務中也展現出競爭力,證明其應用範疇不限於自然語言處理。

TITANS 架構是 Transformer 模型發展的重要進程,其模擬人腦記憶系統的多層級架構和驚奇機制,為模型帶來了更強大的記憶和推理能力。未來隨著研究的深入,TITANS 模型將有望在更廣泛的領域中得到應用,並推動人工智慧的進一步發展。

論文連結 Google 突破性論文 Titans:具備類似人類記憶
