Google 最新發表的突破性論文《Titans: Learning to Memorize at Test Time》,破解如何賦予模型「類人」記憶的密碼。
名為「泰坦 (Titans)」的新型神經網路架構,解決現有 Transformer 模型在處理長序列資料時效率低下的問題。核心概念在於結合兩種記憶模組:
一、 Transformer 模型的限制
現今多數語言模型,如 OpenAI、Anthropic、Llama、DeepSeek 等,皆奠基於 Transformer 架構和注意力機制,因其具備優異的上下文學習能力及大規模學習能力,使其成為當前最先進的技術。
然而,Transformer 架構存在一個主要缺陷:上下文窗口大小的限制。由於其二次時間和記憶體複雜度,當輸入的資訊量增加時,模型的效能會下降。
“隨著上下文窗口的增加,基於 Transformer 架構的模型會產生巨大的負擔,這限制了上下文窗口的大小。”
二、 TITANS:模擬人腦記憶
TITANS 的目標是藉由模擬人腦的多層級記憶系統 (短期、長期、元記憶) 來解決此問題,並讓這些不同類型的記憶協同運作。
“我們認為,在一個有效率的學習範例中,類似於人腦,存在著截然不同卻又相互關聯的記憶模組,每個模組負責學習過程中至關重要的組成部分。”
TITANS 的主要特點
TITANS 架構的三種變體
論文中提出了三種 TITANS 架構變體,各有其優缺點和適用場景:
實驗結果
TITANS 模型在多項基準測試中表現出色,包括:
TITANS 架構是 Transformer 模型發展的重要進程,其模擬人腦記憶系統的多層級架構和驚奇機制,為模型帶來了更強大的記憶和推理能力。未來隨著研究的深入,TITANS 模型將有望在更廣泛的領域中得到應用,並推動人工智慧的進一步發展。
論文連結 Google 突破性論文 Titans:具備類似人類記憶