【系統設計】AI Agent的記憶模式

更新於 發佈於 閱讀時間約 4 分鐘

你是否好奇:「為什麼AI了解你的個人訊息?」「為什麼AI可以記得之前的問題,來回答新的問題?」,這是因為AI使用了上下文參照(Context Window)的技術。

🌟 Context Window 原理

有趣的是,LLM 本身不會記憶對話,如果你告訴 LLM 你最喜歡的消遣是烹飪,然後問它你最喜歡的消遣是什麼,它不會知道。這稱為「無狀態性」,該特徵簡化了 LLM 的設計,使其更易於部署和擴展。

那麼為什麼 ChatGPT 能記住你跟它之間的對話呢?神奇之處在於客戶端系統架構,而不是 LLM 本身。使用 ChatGPT 時,客戶端會追蹤對話。它會在每次新的提示時將整個歷史記錄回饋給 LLM。這造成了一種記憶的錯覺。 LLM 並沒有記住,而是被提醒了。

從系統面解釋,系統會將重要的資訊,連同問題一起丟給LLM處理。

raw-image

🌟 系統如何過濾雜訊

然而LLM能夠接收的prompt有長度限制(Context Window有長度限制),假設一個對話視窗包含了1000則對話,系統如果將所有對話全部丟回到LLM,將會發生記憶體超載,影響回答內容,也就是「Context Window OverFlow」

raw-image

為了避免Context Window Overflow,系統就需要從1000則對話中,找出有意義的內容回傳到LLM。

先談「寫回記憶(Write)」,由於LLM的Context Window有長度限制,系統必須確保記憶存的都是重要資訊,所以在問題過程中會有監控寫入的模組,判斷哪些資訊跟使用者相關,哪些回答對未來的問答可能有幫助。甚至是在每一次的問答結束,系統都會重新整理,以優化短期記憶的內容。

raw-image

再提到讀取記憶(Read),由於Write模組經常更新記憶內容,所以Read模組的工作就是分析問題,提取記憶體中的重要資訊,以強化問答內容的品質。運作邏輯類似RAG架構,Memory中的重要資訊相當於參考文本,用以輔助LLM生成更準確、上下文連貫的回答。

raw-image

🌟 結論

簡單來說,Context Window 是模型可以一次性讀取與處理的字數上限。這個視窗內可以包含「System prompt」(用來設定模型的角色或語氣)、「User prompt」(使用者輸入)。

就像人類無法一次記住太多事情,語言模型的 context window 也有固定容量。例如,有些模型的視窗大小是 4,000 個 token,而進階模型可能能處理多達 128,000 個 token。但不論是哪種模型,這個容量都是有限的,超過這個範圍的內容將會被截斷,導致模型無法讀取。

在記憶空間有限的前提下,我們需要透過系統設計,挑選出最有價值的資訊,才能讓模型做出最準確、最有邏輯的回應。因此在開發AI系統時,理解Context Window的原理,是提升結果品質的關鍵。

------------------------------------------------------------------------

✨ 喜歡我的文章,歡迎繼續閱讀其他【AI 系列免費文章】!

------------------------------------------------------------------------

留言
avatar-img
留言分享你的想法!
avatar-img
EMO先生的沙龍
159會員
76內容數
本專題主要放一些投資理財方面的個人研究,投資理念偏向價值投資,習慣從產業的角度、產品營收佔比分析公司體質,近期研究的主題著重於: (1)半導體產業鏈:IC設計、IC製造、CoWos (2)重電產業鏈:台電強韌電網、智慧電網計畫 (3)營建股追蹤:隆大、新美齊、憶聲、順達、名軒
EMO先生的沙龍的其他內容
2025/07/24
本文探討早期與現代AI系統設計的差異,早期系統注重答案正確性,現代AI Agent則強調任務執行能力。文章詳細介紹了三種現代AI Agent設計模式:ReFlection Pattern、ReAct Pattern以及Plan and Solve Pattern,並說明其優缺點與應用場景。
Thumbnail
2025/07/24
本文探討早期與現代AI系統設計的差異,早期系統注重答案正確性,現代AI Agent則強調任務執行能力。文章詳細介紹了三種現代AI Agent設計模式:ReFlection Pattern、ReAct Pattern以及Plan and Solve Pattern,並說明其優缺點與應用場景。
Thumbnail
2025/04/13
大型語言模型的發展,讓人們思考陪伴型機器人是否能成真,文章探討兩種實現方式:主流的語音轉文字LLM方法和新興的Spoken LLMs方法。作者認為Spoken LLMs的發展,能讓AI更自然地與人互動,實現如哆啦A夢般的陪伴型機器人,並進一步提升AI的陪伴功能。
Thumbnail
2025/04/13
大型語言模型的發展,讓人們思考陪伴型機器人是否能成真,文章探討兩種實現方式:主流的語音轉文字LLM方法和新興的Spoken LLMs方法。作者認為Spoken LLMs的發展,能讓AI更自然地與人互動,實現如哆啦A夢般的陪伴型機器人,並進一步提升AI的陪伴功能。
Thumbnail
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
看更多
你可能也想看
Thumbnail
今天想分享我怎麼「用 AI 設計一個學習流程」讓我把學過的英文「真的記住,並且用的出來」 這個過程不會碰到複雜的技術,只需結合基本學習原則,還有在ChatGPT用中文下指令的技巧,這樣你以後就可以針對自己想學的英文內容設計客製化的學習材料跟練習過程喔!
Thumbnail
今天想分享我怎麼「用 AI 設計一個學習流程」讓我把學過的英文「真的記住,並且用的出來」 這個過程不會碰到複雜的技術,只需結合基本學習原則,還有在ChatGPT用中文下指令的技巧,這樣你以後就可以針對自己想學的英文內容設計客製化的學習材料跟練習過程喔!
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News