賦予AI 模型在推理時有「類人」的記憶

Patrick

發佈於數位剪報

更新於 2025/01/21發佈於 2025/01/21閱讀時間約 5 分鐘

Google 最新發表的突破性論文《Titans: Learning to Memorize at Test Time》，破解如何賦予模型「類人」記憶的密碼。

名為「泰坦 (Titans)」的新型神經網路架構，解決現有 Transformer 模型在處理長序列資料時效率低下的問題。核心概念在於結合兩種記憶模組：

一、 Transformer 模型的限制

現今多數語言模型，如 OpenAI、Anthropic、Llama、DeepSeek 等，皆奠基於 Transformer 架構和注意力機制，因其具備優異的上下文學習能力及大規模學習能力，使其成為當前最先進的技術。

然而，Transformer 架構存在一個主要缺陷：上下文窗口大小的限制。由於其二次時間和記憶體複雜度，當輸入的資訊量增加時，模型的效能會下降。

“隨著上下文窗口的增加，基於 Transformer 架構的模型會產生巨大的負擔，這限制了上下文窗口的大小。”

二、 TITANS：模擬人腦記憶

TITANS 的目標是藉由模擬人腦的多層級記憶系統 (短期、長期、元記憶) 來解決此問題，並讓這些不同類型的記憶協同運作。

“我們認為，在一個有效率的學習範例中，類似於人腦，存在著截然不同卻又相互關聯的記憶模組，每個模組負責學習過程中至關重要的組成部分。”

TITANS 的主要特點

測試時間記憶 (Test-time Memorization): TITANS 模型在推理階段 (即接收提示並生成回應的過程) 學習如何記憶和儲存資料，而非在預先訓練階段。
“我們設計了一個長期神經記憶模組，它可以有效地在測試時間學習記憶。”
驚奇機制 (Surprise Mechanism): 模仿人腦記憶偏向於記住令人驚奇的事件，TITANS 模型也內建了驚奇機制，當遇到與預期不符的資訊時，模型會將其視為需要記憶的重點。
“我們設計了這個記憶模組，以便讓違反預期的事件（簡單來說就是令人驚奇的事件）更容易被記住。”
遺忘機制 (Forgetting Mechanism): 為了避免記憶過載，TITANS 模型也包含遺忘機制，會隨著時間推移逐漸淡化不重要的記憶。
“在處理非常大的序列（數百萬個標記）時，管理哪些過去資訊應該被遺忘至關重要。為此，我們使用了一種自適應遺忘機制，允許記憶忘記不再需要的資訊，從而更好地管理記憶的有限容量。”

TITANS 架構的三種變體

論文中提出了三種 TITANS 架構變體，各有其優缺點和適用場景：

記憶作為上下文 (Memory as Context，MAC): 將記憶作為當前資訊的上下文，適合需要詳細歷史背景的任務。
記憶作為閘門 (Memory as Gate，MAG): 利用閘門機制來調節短期和長期記憶的影響，更靈活且可在短期和長期注意力之間切換。
記憶作為層級 (Memory as Layer，MAL): 將記憶整合為深度神經網路的一層，效率最高，但效能略遜於其他兩種變體。

實驗結果

TITANS 模型在多項基準測試中表現出色，包括：

語言建模和常識推理: TITANS 模型在多項語言建模和常識推理任務中，表現優於其他遞迴模型和 Transformer 模型。
大海撈針測試 (Needle in a Haystack): TITANS 模型在超長上下文窗口中，能有效地記憶和提取深層資訊，展現出優異的長期記憶能力。
時間序列預測和 DNA 建模: TITANS 模型在時間序列預測和 DNA 建模任務中也展現出競爭力，證明其應用範疇不限於自然語言處理。

TITANS 架構是 Transformer 模型發展的重要進程，其模擬人腦記憶系統的多層級架構和驚奇機制，為模型帶來了更強大的記憶和推理能力。未來隨著研究的深入，TITANS 模型將有望在更廣泛的領域中得到應用，並推動人工智慧的進一步發展。

論文連結 Google 突破性論文 Titans：具備類似人類記憶

7會員

75內容數

協助解決中小型製造企業數位轉型問題，傳產公司的痛點是缺乏 IT專業人才，我們提供便捷的智慧物聯網系統“EDC高效資料收集與分散式控制系統”。協助貴公司非專業人員短期培訓，即可自主完成物聯網部署，快速實現資料採集、資料可視、資料存儲和資料分析，助力傳統製造中小企業的數位轉型！業務營銷｜專案管理｜工廠營運｜跨業合作

留言0

查看全部

發表第一個留言支持創作者！

你可能也想看

從 Google News 追蹤更多 vocus 的最新精選內容