Context Management:解鎖 LLM Agent 的真實潛力

更新 發佈閱讀 10 分鐘
Prompt Engineering 轉變成 Context Engineering ,重點不在於 Context Windows 大小,而在於 Context 品質,尤其當LLM Agent 從之前的被動回應轉向成主動執行複雜任務後更被體現出來,從傳統 RAG 的內容檢索向關係建模演進,所以一個好的 Context Management (上下文管理),就顯得很重要。

Context Windows 是什麼?

Context Windows (上下文窗口)不是越大越好嗎?

確實更長的上下文,可以提供更長的文件與更多回合的對話(對話記憶)等,但別忘了 LLM 是基於 Transformer 架構,其中最重要的 Attention 機制會讓 LLM 在長序列中,更偏好處理最近的 token,導致較遠的資訊權重被稀釋也就是所謂注意力衰減 (Attention Decay),當然現在也有一些新的架構如(Longformer, FlashAttention, Mamba)。

計算成本

那直接加大 Context 大小不就好了嗎?

計算成本大幅增加,別忘了 Transformer 的 self-attention 計算量是 O(n²),所以當 Context 長度翻倍時計算量幾乎翻四倍,最直觀的感受是現在的 LLM API 收費大部分是按 Token 計價的,所以當你的 Context 越多(Token 也越多)那費用也會越高,更何況更長的上下文 LLM 也不一定能很好的完全使用,只會有更多的干擾資訊導致汙染(Context Pollution)與延遲增加。

所以除了改進現有架構之外,實務上也會將記憶的需求外包(在 Context Windows 以外的地方存放,有需要時再取回來),像是使用 RAG 技術或是開發 Agent 時會設計的長短期(Long / Short-term)記憶,可以理解成當我們的 Prompt 放不下了就需要將一些沒那麼重要或是冗長的訊息移除,但挑選的依據又是什麼?

  • 改進架構:長注意力機制 (Longformer, FlashAttention, Mamba)。
  • 外部記憶:RAG、Vector db(向量資料庫)、Agent 記憶模組(Long-term memory 等)。

Reasoning Model 與 MCP Tool

現在越來越多模型都開始會推理(Reasoning Model <- 這部分之後可以找機會聊聊),以及越來越多 MCP Tool 加入,這些都很容易讓 Context Windows 爆炸,下圖是 Claude 官方文件的說明,要如何管理與放置這些資訊就是所謂的 Context Management。

Context Window with extended thinking and tool use

Context Window with extended thinking and tool use

LLM Agent and Context

LLM 的 Context Window 是 Agent 設計中的一個挑戰,可以理解成如果你一次只能處理有限的資訊與記憶(工作記憶 Working memory),無法無限容納所有歷史資訊、對話記錄與工具回饋,無限制的累積只會導致上面提到的問題。

Memory Bank

在最基本的層面上,LLM Agent 的記憶體可被分為兩種主要類型

  • 短期記憶(Short-Term Memory): 負責處理單次 LLM 調用中的上下文資訊。屬於短暫且有限的,如前幾篇提到的(in-context learning),像是將近期對話歷史直接放入 Prompt 中。但此方法受限於上下文視窗的固定大小,無法處理冗長的歷史記錄。
  • 長期記憶(Long-Term Memory): 用於儲存 Agent 需要長期保留和重新取用資訊,這段記憶的生命週期超過單次對話或任務。可以透過外部儲存機制,如前面提到的向量資料庫或知識圖譜,透過檢索來提供相關資訊 ,如筆者的 MemTask MCP 專案。

當然如果仔細往下深挖還有情節記憶(Episodic memory)、用戶專屬記憶(User-specific memory)或是將長短期記憶結合的混合記憶(Hybrid Memory)等等,現在先回到此篇討論的重點:上下文管理(Context Management)

傳統 RAG 問題

說到 Context 就不得不提 RAG(檢索增強生成),RAG 是一種允許 LLM 取用外部知識庫的框架,一開始出現的原因是為了在不重新訓練模型的前提下,提供 LLM 最新或特定領域知識從而有效減少 LLM 幻覺。

但傳統的 RAG 機制有一個明顯的缺陷,基於餘弦相似性(cosine similarity)進行向量檢索最相關的資料並生成回應,這種方法本質上是基於「相關性」,但缺乏對資訊間「關係」的理解。因此很容易將語義上相似但實際無關的資訊注入上下文,這樣會導致上述提到的「上下文污染」,尤其難以處理需要多步推理、跨越多個文件才能回答的複雜問題,這從根本上限制了 Agent 的複雜推理能力。

隨著需求後來也發展出了基於知識圖譜的(Graph-Based Memory - GraphRAG),以及分層記憶體(Hierarchical Memory - G-Memory)概念,未來有機會再針對這部分細說,而 G-Memory 與 GraphRAG 的出現,使得上下文管理從單純的內容檢索關係建模的轉變,Agent的推理能力不僅取決於它看到什麼資訊,更取決於它對這些資訊之間「關聯」的理解。

從 ReAct 到 Reflexion

ReAct

之前文章有介紹過 ReAct(Reasoning + Acting)是一種常見的通用 Agent 架構,透過「思考」(Thought)「行動」(Action)「觀察」(Observation)循環,讓 Agent 能夠解決複雜任務。在 ReAct 中記憶體在循環中起著關鍵作用,用於保留過去步驟的資訊,以便 Agent 在下一步決策時能夠回溯軌跡。

ReAct(Reasoning + Acting)

ReAct(Reasoning + Acting)

Reflexion

ReAct 在本質上是一種單步決策的框架。為了賦予 Agent 更強的學習與自我修正能力,發展出了 Reflexion 框架,加入了「自我反思」(Self-Reflection)機制,將Agent的記憶從被動的「儲存」轉化為主動的「學習」工具。

  • Actor: 根據環境觀察與歷史記憶生成行動 。
  • Evaluator: 評估 Actor 的行動軌跡,提供獎勵分數或簡單的「正確/錯誤」判斷 。
  • Self-Reflector: 一個專門的LLM,根據 Evaluator 的獎勵信號與當前軌跡,產生「語言式反饋」(linguistic feedback),並將其儲存在長期記憶中
Reflexion 概念

Reflexion 概念

實際情境

實際情境

透過類似迭代學習的機制,可以使 Agent 能夠從過去的錯誤中學習,並將其轉化為可供未來決策參考的知識。Reflexion 將 Agent 從單純的狀態管理(ReAct)演進到一個具備自我修正與迭代學習能力的認知架構。

Context Management 應具備的關鍵功能

在前面的介紹可以看出,不管對於哪一種類型的 Agent 架構,Memory 都是最關鍵的部分,可以說如果沒有辦法提供好/正確的記憶給 LLM,他將無法給予理想的回應,下面列出幾個主要的功能分類。

短期記憶 (Short-term Memory)

能夠自動管理 LLM 的上下文窗口
  • 動態裁剪 (Dynamic Truncation): 根據重要性(如時間、關鍵詞、對當前任務的相關性)來裁剪或總結舊的對話歷史。
  • 避免在窗口中迷失: 採用專門策略(如將重要資訊放在開頭或結尾)來減輕此問題。
  • 上下文窗口預測與優化: 估計剩餘窗口大小,並提前進行總結或壓縮。

長期記憶 (Long-term Memory)

  • Episodic Memory:存儲過去的特定事件、對話,以便 Agent 能夠「記住」過去的具體經歷。
  • Semantic Memory:存儲關於世界、領域的通用知識(類似於 RAG 的檢索知識庫,但更結構化)。
  • Procedural Memory:存儲 Agent 如何完成特定任務的步驟或策略,類似於技能和習慣。

工作記憶 (Working Memory)

臨時存儲 Agent 在思考、規劃和執行任務過程中需要頻繁訪問的資訊。

檢索與路由 (Retrieval & Routing)

  • 情境感知檢索 (Context-Aware Retrieval):根據當前 Agent 的狀態、意圖和任務,從不同層次的記憶中檢索最相關的資訊。
  • 混合檢索策略 (Hybrid Retrieval Strategies):結合關鍵詞匹配、向量相似度搜索(如使用嵌入式向量庫)以及圖搜索(如 GraphRAG)。

上下文壓縮與總結 (Context Compression & Summarization)

  • 動態總結 (Dynamic Summarization):對過去的對話、文件或觀察到的資訊進行分層、總結,以節省上下文空間。
  • 重點提取 (Key Information Extraction):自動識別並提取對 Agent 的決策至關重要的資訊片段。

所以說建構一個好的 Context Management 在當前 LLM Agent 的發展階段是一個必要的趨勢的,能夠解決現有 Agent 系統面臨的核心挑戰,為開發更強大、更智能的 Agent 提供關鍵的支持。

留言
avatar-img
AI 工程師的 LLM 筆記
0會員
14內容數
聊一聊提示工程、模型調校與優化技巧,同時分享一路走來的挑戰與突破,作為提醒未來的自己:別忘初心,走得更踏實。
2025/07/25
大型語言模型在解決問題上的能力日益提升,但傳統方法如 CoT 仍有其侷限性。本文介紹Tree of Thoughts(ToT)方法,一種讓LLM更有效解決問題的方法。ToT將問題解決過程視為一棵樹,每個節點代表一個解決方案,透過LLM選擇並探索節點,直到找到最佳答案。
Thumbnail
2025/07/25
大型語言模型在解決問題上的能力日益提升,但傳統方法如 CoT 仍有其侷限性。本文介紹Tree of Thoughts(ToT)方法,一種讓LLM更有效解決問題的方法。ToT將問題解決過程視為一棵樹,每個節點代表一個解決方案,透過LLM選擇並探索節點,直到找到最佳答案。
Thumbnail
2025/07/25
本文探討大型語言模型中提示工程的演進,從 Few-shot CoT、Zero-shot CoT 到 Self-Consistency 和Automatic CoT。說明優缺點及應用場景,並重點介紹 Automatic CoT如何提升模型效能。
Thumbnail
2025/07/25
本文探討大型語言模型中提示工程的演進,從 Few-shot CoT、Zero-shot CoT 到 Self-Consistency 和Automatic CoT。說明優缺點及應用場景,並重點介紹 Automatic CoT如何提升模型效能。
Thumbnail
2025/07/25
本文簡介提示工程(Prompt Engineering)在大型語言模型(LLM)應用中的關鍵角色,說明如何設計與格式化提示詞(Prompts),並比較零樣本與少樣本提示的應用差異,同時介紹提示的四大元素:指令、語境、輸入與輸出指示,協助讀者有效提升模型表現。
Thumbnail
2025/07/25
本文簡介提示工程(Prompt Engineering)在大型語言模型(LLM)應用中的關鍵角色,說明如何設計與格式化提示詞(Prompts),並比較零樣本與少樣本提示的應用差異,同時介紹提示的四大元素:指令、語境、輸入與輸出指示,協助讀者有效提升模型表現。
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
自由接案好像很自由、容易,卻需要點方向的指引,希望這篇的分享能給予你一些幫助。
Thumbnail
自由接案好像很自由、容易,卻需要點方向的指引,希望這篇的分享能給予你一些幫助。
Thumbnail
本文介紹了檢索增強生成(RAG)技術的概念、運作原理、應用場景以及相關資源。RAG 技術結合檢索和生成的優勢,提升了生成內容的準確性和相關性,同時能有效保護隱私數據。對於希望應用 GPT 技術但擔心數據外洩的企業來說,RAG 是一個理想的解決方案。
Thumbnail
本文介紹了檢索增強生成(RAG)技術的概念、運作原理、應用場景以及相關資源。RAG 技術結合檢索和生成的優勢,提升了生成內容的準確性和相關性,同時能有效保護隱私數據。對於希望應用 GPT 技術但擔心數據外洩的企業來說,RAG 是一個理想的解決方案。
Thumbnail
這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估,並提出了四個不同像限的專案特性。
Thumbnail
這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估,並提出了四個不同像限的專案特性。
Thumbnail
Windows Clarity 是一種網站分析產品,讓網站設計師、開發人員可藉由它,更容易觀察用戶在網站的操作行為,協助更快速的優化網站,加強網頁的轉換效果與商業目標的達成。本文將介紹 Windows Clarity 應該如何使用,強化分析能力與優化網站效益。
Thumbnail
Windows Clarity 是一種網站分析產品,讓網站設計師、開發人員可藉由它,更容易觀察用戶在網站的操作行為,協助更快速的優化網站,加強網頁的轉換效果與商業目標的達成。本文將介紹 Windows Clarity 應該如何使用,強化分析能力與優化網站效益。
Thumbnail
這篇文章描述了作者從兼職開發轉為全職開發的過程,並分享了從混進學界指日可待的積極態度。作者也提及自己在專案製作與個人生活上的矛盾與感想,最後分享了專案管理和敏捷開發相關的文章與影片。
Thumbnail
這篇文章描述了作者從兼職開發轉為全職開發的過程,並分享了從混進學界指日可待的積極態度。作者也提及自己在專案製作與個人生活上的矛盾與感想,最後分享了專案管理和敏捷開發相關的文章與影片。
Thumbnail
公告佈達看似簡單,但如何做好才是關鍵。 只有透過適時而有效的公告,才能確保重要訊息的及時傳達,促進員工的共識和配合 最終提升整體的運營效率,為企業持續發展注入動力!
Thumbnail
公告佈達看似簡單,但如何做好才是關鍵。 只有透過適時而有效的公告,才能確保重要訊息的及時傳達,促進員工的共識和配合 最終提升整體的運營效率,為企業持續發展注入動力!
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News