賦予AI 模型在推理時有「類人」的記憶

更新於 發佈於 閱讀時間約 5 分鐘

Google 最新發表的突破性論文《Titans: Learning to Memorize at Test Time》,破解如何賦予模型「類人」記憶的密碼。

raw-image

名為「泰坦 (Titans)」的新型神經網路架構,解決現有 Transformer 模型在處理長序列資料時效率低下的問題。核心概念在於結合兩種記憶模組:

一、 Transformer 模型的限制

現今多數語言模型,如 OpenAI、Anthropic、Llama、DeepSeek 等,皆奠基於 Transformer 架構和注意力機制,因其具備優異的上下文學習能力及大規模學習能力,使其成為當前最先進的技術。

然而,Transformer 架構存在一個主要缺陷:上下文窗口大小的限制。由於其二次時間和記憶體複雜度,當輸入的資訊量增加時,模型的效能會下降。

“隨著上下文窗口的增加,基於 Transformer 架構的模型會產生巨大的負擔,這限制了上下文窗口的大小。”

二、 TITANS:模擬人腦記憶

TITANS 的目標是藉由模擬人腦的多層級記憶系統 (短期、長期、元記憶) 來解決此問題,並讓這些不同類型的記憶協同運作。

“我們認為,在一個有效率的學習範例中,類似於人腦,存在著截然不同卻又相互關聯的記憶模組,每個模組負責學習過程中至關重要的組成部分。”

raw-image


TITANS 的主要特點

  1. 測試時間記憶 (Test-time Memorization): TITANS 模型在推理階段 (即接收提示並生成回應的過程) 學習如何記憶和儲存資料,而非在預先訓練階段。
  2. “我們設計了一個長期神經記憶模組,它可以有效地在測試時間學習記憶。”
  3. 驚奇機制 (Surprise Mechanism): 模仿人腦記憶偏向於記住令人驚奇的事件,TITANS 模型也內建了驚奇機制,當遇到與預期不符的資訊時,模型會將其視為需要記憶的重點。
  4. “我們設計了這個記憶模組,以便讓違反預期的事件(簡單來說就是令人驚奇的事件)更容易被記住。”
  5. 遺忘機制 (Forgetting Mechanism): 為了避免記憶過載,TITANS 模型也包含遺忘機制,會隨著時間推移逐漸淡化不重要的記憶。
  6. “在處理非常大的序列(數百萬個標記)時,管理哪些過去資訊應該被遺忘至關重要。為此,我們使用了一種自適應遺忘機制,允許記憶忘記不再需要的資訊,從而更好地管理記憶的有限容量。”


TITANS 架構的三種變體

論文中提出了三種 TITANS 架構變體,各有其優缺點和適用場景:

  1. 記憶作為上下文 (Memory as Context,MAC): 將記憶作為當前資訊的上下文,適合需要詳細歷史背景的任務。
  2. 記憶作為閘門 (Memory as Gate,MAG): 利用閘門機制來調節短期和長期記憶的影響,更靈活且可在短期和長期注意力之間切換。
  3. 記憶作為層級 (Memory as Layer,MAL): 將記憶整合為深度神經網路的一層,效率最高,但效能略遜於其他兩種變體。


實驗結果

TITANS 模型在多項基準測試中表現出色,包括:

  1. 語言建模和常識推理: TITANS 模型在多項語言建模和常識推理任務中,表現優於其他遞迴模型和 Transformer 模型。
  2. 大海撈針測試 (Needle in a Haystack): TITANS 模型在超長上下文窗口中,能有效地記憶和提取深層資訊,展現出優異的長期記憶能力。
  3. 時間序列預測和 DNA 建模: TITANS 模型在時間序列預測和 DNA 建模任務中也展現出競爭力,證明其應用範疇不限於自然語言處理。
raw-image


TITANS 架構是 Transformer 模型發展的重要進程,其模擬人腦記憶系統的多層級架構和驚奇機制,為模型帶來了更強大的記憶和推理能力。未來隨著研究的深入,TITANS 模型將有望在更廣泛的領域中得到應用,並推動人工智慧的進一步發展。

raw-image


論文連結 Google 突破性論文 Titans:具備類似人類記憶



協助解決中小型製造企業數位轉型問題,傳產公司的痛點是缺乏 IT專業人才,我們提供便捷的智慧物聯網系統“EDC高效資料收集與分散式控制系統”。協助貴公司非專業人員短期培訓,即可自主完成物聯網部署,快速實現資料採集、資料可視、資料存儲和資料分析,助力傳統製造中小企業的數位轉型! 業務營銷|專案管理|工廠營運|跨業合作
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~