Context Management：解鎖 LLM Agent 的真實潛力

2025/09/10 更新2025/09/10 發佈閱讀 10 分鐘

Prompt Engineering 轉變成 Context Engineering ，重點不在於 Context Windows 大小，而在於 Context 品質，尤其當LLM Agent 從之前的被動回應轉向成主動執行複雜任務後更被體現出來，從傳統 RAG 的內容檢索向關係建模演進，所以一個好的 Context Management （上下文管理），就顯得很重要。

Context Windows 是什麼?

Context Windows （上下文窗口）不是越大越好嗎?

確實更長的上下文，可以提供更長的文件與更多回合的對話（對話記憶）等，但別忘了 LLM 是基於 Transformer 架構，其中最重要的 Attention 機制會讓 LLM 在長序列中，更偏好處理最近的 token，導致較遠的資訊權重被稀釋也就是所謂注意力衰減 (Attention Decay)，當然現在也有一些新的架構如（Longformer, FlashAttention, Mamba）。

計算成本

那直接加大 Context 大小不就好了嗎?

計算成本大幅增加，別忘了 Transformer 的 self-attention 計算量是 O(n²)，所以當 Context 長度翻倍時計算量幾乎翻四倍，最直觀的感受是現在的 LLM API 收費大部分是按 Token 計價的，所以當你的 Context 越多（Token 也越多）那費用也會越高，更何況更長的上下文 LLM 也不一定能很好的完全使用，只會有更多的干擾資訊導致汙染（Context Pollution）與延遲增加。

所以除了改進現有架構之外，實務上也會將記憶的需求外包（在 Context Windows 以外的地方存放，有需要時再取回來），像是使用 RAG 技術或是開發 Agent 時會設計的長短期（Long / Short-term）記憶，可以理解成當我們的 Prompt 放不下了就需要將一些沒那麼重要或是冗長的訊息移除，但挑選的依據又是什麼?

改進架構：長注意力機制 (Longformer, FlashAttention, Mamba)。
外部記憶：RAG、Vector db（向量資料庫）、Agent 記憶模組（Long-term memory 等）。

Reasoning Model 與 MCP Tool

現在越來越多模型都開始會推理（Reasoning Model <- 這部分之後可以找機會聊聊），以及越來越多 MCP Tool 加入，這些都很容易讓 Context Windows 爆炸，下圖是 Claude 官方文件的說明，要如何管理與放置這些資訊就是所謂的 Context Management。

Context Window with extended thinking and tool use

LLM Agent and Context

LLM 的 Context Window 是 Agent 設計中的一個挑戰，可以理解成如果你一次只能處理有限的資訊與記憶（工作記憶 Working memory），無法無限容納所有歷史資訊、對話記錄與工具回饋，無限制的累積只會導致上面提到的問題。

Memory Bank

在最基本的層面上，LLM Agent 的記憶體可被分為兩種主要類型

短期記憶（Short-Term Memory）： 負責處理單次 LLM 調用中的上下文資訊。屬於短暫且有限的，如前幾篇提到的（in-context learning），像是將近期對話歷史直接放入 Prompt 中。但此方法受限於上下文視窗的固定大小，無法處理冗長的歷史記錄。
長期記憶（Long-Term Memory）： 用於儲存 Agent 需要長期保留和重新取用資訊，這段記憶的生命週期超過單次對話或任務。可以透過外部儲存機制，如前面提到的向量資料庫或知識圖譜，透過檢索來提供相關資訊，如筆者的 MemTask MCP 專案。

當然如果仔細往下深挖還有情節記憶（Episodic memory）、用戶專屬記憶（User-specific memory）或是將長短期記憶結合的混合記憶（Hybrid Memory）等等，現在先回到此篇討論的重點：上下文管理（Context Management）

傳統 RAG 問題

說到 Context 就不得不提 RAG（檢索增強生成），RAG 是一種允許 LLM 取用外部知識庫的框架，一開始出現的原因是為了在不重新訓練模型的前提下，提供 LLM 最新或特定領域知識從而有效減少 LLM 幻覺。

但傳統的 RAG 機制有一個明顯的缺陷，基於餘弦相似性（cosine similarity）進行向量檢索最相關的資料並生成回應，這種方法本質上是基於「相關性」，但缺乏對資訊間「關係」的理解。因此很容易將語義上相似但實際無關的資訊注入上下文，這樣會導致上述提到的「上下文污染」，尤其難以處理需要多步推理、跨越多個文件才能回答的複雜問題，這從根本上限制了 Agent 的複雜推理能力。

隨著需求後來也發展出了基於知識圖譜的（Graph-Based Memory - GraphRAG），以及分層記憶體（Hierarchical Memory - G-Memory）概念，未來有機會再針對這部分細說，而 G-Memory 與 GraphRAG 的出現，使得上下文管理從單純的內容檢索向關係建模的轉變，Agent的推理能力不僅取決於它看到什麼資訊，更取決於它對這些資訊之間「關聯」的理解。

從 ReAct 到 Reflexion

ReAct

之前文章有介紹過 ReAct（Reasoning + Acting）是一種常見的通用 Agent 架構，透過「思考」（Thought）、 「行動」（Action）和「觀察」（Observation）循環，讓 Agent 能夠解決複雜任務。在 ReAct 中記憶體在循環中起著關鍵作用，用於保留過去步驟的資訊，以便 Agent 在下一步決策時能夠回溯軌跡。

ReAct（Reasoning + Acting）

Reflexion

ReAct 在本質上是一種單步決策的框架。為了賦予 Agent 更強的學習與自我修正能力，發展出了 Reflexion 框架，加入了「自我反思」（Self-Reflection）機制，將Agent的記憶從被動的「儲存」轉化為主動的「學習」工具。

Actor： 根據環境觀察與歷史記憶生成行動。
Evaluator： 評估 Actor 的行動軌跡，提供獎勵分數或簡單的「正確/錯誤」判斷。
Self-Reflector： 一個專門的LLM，根據 Evaluator 的獎勵信號與當前軌跡，產生「語言式反饋」（linguistic feedback），並將其儲存在長期記憶中。

Reflexion 概念

實際情境

透過類似迭代學習的機制，可以使 Agent 能夠從過去的錯誤中學習，並將其轉化為可供未來決策參考的知識。Reflexion 將 Agent 從單純的狀態管理（ReAct）演進到一個具備自我修正與迭代學習能力的認知架構。

Context Management 應具備的關鍵功能

在前面的介紹可以看出，不管對於哪一種類型的 Agent 架構，Memory 都是最關鍵的部分，可以說如果沒有辦法提供好/正確的記憶給 LLM，他將無法給予理想的回應，下面列出幾個主要的功能分類。

短期記憶 (Short-term Memory)

能夠自動管理 LLM 的上下文窗口

動態裁剪 (Dynamic Truncation): 根據重要性（如時間、關鍵詞、對當前任務的相關性）來裁剪或總結舊的對話歷史。
避免在窗口中迷失： 採用專門策略（如將重要資訊放在開頭或結尾）來減輕此問題。
上下文窗口預測與優化： 估計剩餘窗口大小，並提前進行總結或壓縮。

長期記憶 (Long-term Memory)

Episodic Memory：存儲過去的特定事件、對話，以便 Agent 能夠「記住」過去的具體經歷。
Semantic Memory：存儲關於世界、領域的通用知識（類似於 RAG 的檢索知識庫，但更結構化）。
Procedural Memory：存儲 Agent 如何完成特定任務的步驟或策略，類似於技能和習慣。

工作記憶 (Working Memory)

臨時存儲 Agent 在思考、規劃和執行任務過程中需要頻繁訪問的資訊。

檢索與路由 (Retrieval & Routing)

情境感知檢索 (Context-Aware Retrieval)：根據當前 Agent 的狀態、意圖和任務，從不同層次的記憶中檢索最相關的資訊。
混合檢索策略 (Hybrid Retrieval Strategies)：結合關鍵詞匹配、向量相似度搜索（如使用嵌入式向量庫）以及圖搜索（如 GraphRAG）。

上下文壓縮與總結 (Context Compression & Summarization)

動態總結 (Dynamic Summarization)：對過去的對話、文件或觀察到的資訊進行分層、總結，以節省上下文空間。
重點提取 (Key Information Extraction)：自動識別並提取對 Agent 的決策至關重要的資訊片段。

所以說建構一個好的 Context Management 在當前 LLM Agent 的發展階段是一個必要的趨勢的，能夠解決現有 Agent 系統面臨的核心挑戰，為開發更強大、更智能的 Agent 提供關鍵的支持。

AI 工程師的 LLM 筆記Context Engineering 前世今生

留言

留言分享你的想法！

AI 工程師的 LLM 筆記

0會員

14內容數

聊一聊提示工程、模型調校與優化技巧，同時分享一路走來的挑戰與突破，作為提醒未來的自己：別忘初心，走得更踏實。

AI 工程師的 LLM 筆記的其他內容

2025/07/25

Tree of Thoughts：大型語言模型的深思熟慮問題解決法

大型語言模型在解決問題上的能力日益提升，但傳統方法如 CoT 仍有其侷限性。本文介紹Tree of Thoughts(ToT)方法，一種讓LLM更有效解決問題的方法。ToT將問題解決過程視為一棵樹，每個節點代表一個解決方案，透過LLM選擇並探索節點，直到找到最佳答案。

2025/07/25

Tree of Thoughts：大型語言模型的深思熟慮問題解決法

2025/07/25

大型語言模型提示工程的演進：從Few-shot到Automatic CoT Prompting

本文探討大型語言模型中提示工程的演進，從 Few-shot CoT、Zero-shot CoT 到 Self-Consistency 和Automatic CoT。說明優缺點及應用場景，並重點介紹 Automatic CoT如何提升模型效能。

2025/07/25

大型語言模型提示工程的演進：從Few-shot到Automatic CoT Prompting

2025/07/25

提示工程：提升大型語言模型效能的關鍵

本文簡介提示工程（Prompt Engineering）在大型語言模型（LLM）應用中的關鍵角色，說明如何設計與格式化提示詞（Prompts），並比較零樣本與少樣本提示的應用差異，同時介紹提示的四大元素：指令、語境、輸入與輸出指示，協助讀者有效提升模型表現。

2025/07/25

你可能也想看

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

雙11購物節準備開跑，蝦皮推出超多優惠，與你分享實際入手的收納好物，包括貨櫃收納箱、真空收納袋、可站立筆袋等，並分享如何利用蝦皮分潤計畫，一邊購物一邊賺取額外收入，讓你買得開心、賺得也開心！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Chloe小窩

租屋整理控必看 | 雙11收納好物開箱 × 蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

分享個人在新家裝潢後，精選 5 款蝦皮上的實用家居好物，包含客製化層架、MIT 地毯、沙發邊桌、分類垃圾桶及寵物碗架，從尺寸、功能到價格都符合需求，並提供詳細開箱心得與購買建議。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

邊境牧羊犬的觀察筆記

開箱｜我為新家買的 5 樣家居好物！蝦皮購物實用選品

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Deerlight Design 曝鹿設計

自由接案設計工作者，須具備的能力

自由接案好像很自由、容易，卻需要點方向的指引，希望這篇的分享能給予你一些幫助。

#設計#接案#接案設計師

2024/08/13

Deerlight Design 曝鹿設計

自由接案設計工作者，須具備的能力

自由接案好像很自由、容易，卻需要點方向的指引，希望這篇的分享能給予你一些幫助。

2024/08/13

2024/07/29

2024/07/29

檢索增強生成（RAG）解析：如何在保護隱私中提升工作效率

本文介紹了檢索增強生成（RAG）技術的概念、運作原理、應用場景以及相關資源。RAG 技術結合檢索和生成的優勢，提升了生成內容的準確性和相關性，同時能有效保護隱私數據。對於希望應用 GPT 技術但擔心數據外洩的企業來說，RAG 是一個理想的解決方案。

#RAG#LLM#檢索增強生成

2024/06/27

朵小芸的草味沙龍

檢索增強生成（RAG）解析：如何在保護隱私中提升工作效率

#RAG#LLM#檢索增強生成

2024/06/27

Seng Wong的沙龍

軟體專案管理中的戰略意義和專案特性評估

這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估，並提出了四個不同像限的專案特性。

#專案#軟體#開發

2024/06/20

Seng Wong的沙龍

軟體專案管理中的戰略意義和專案特性評估

這篇文章著重於解釋軟體專案管理中的戰略意義和專案特性評估，並提出了四個不同像限的專案特性。

#專案#軟體#開發

2024/06/20

吱吱喳喳

【UI / UX 網頁優化】一讀就懂，如何使用 Windows Clarity 深入客戶行為，提升網頁轉換率

Windows Clarity 是一種網站分析產品，讓網站設計師、開發人員可藉由它，更容易觀察用戶在網站的操作行為，協助更快速的優化網站，加強網頁的轉換效果與商業目標的達成。本文將介紹 Windows Clarity 應該如何使用，強化分析能力與優化網站效益。

#用戶#網站#數據

2024/06/16

吱吱喳喳

【UI / UX 網頁優化】一讀就懂，如何使用 Windows Clarity 深入客戶行為，提升網頁轉換率

#用戶#網站#數據

2024/06/16

歐拉熊的小廢文專欄

【 #貓貓吉祥專案進度】4 ／【 #週五長知識】10：關於遊戲的專案管理＆敏捷開發

這篇文章描述了作者從兼職開發轉為全職開發的過程，並分享了從混進學界指日可待的積極態度。作者也提及自己在專案製作與個人生活上的矛盾與感想，最後分享了專案管理和敏捷開發相關的文章與影片。

#貓貓吉祥#遊戲製作#遊戲開發

2024/06/07

歐拉熊的小廢文專欄

【 #貓貓吉祥專案進度】4 ／【 #週五長知識】10：關於遊戲的專案管理＆敏捷開發

#貓貓吉祥#遊戲製作#遊戲開發

2024/06/07

鋒哥聊連鎖

擺脫資訊不對稱，做好公告佈達的關鍵

公告佈達看似簡單，但如何做好才是關鍵。只有透過適時而有效的公告，才能確保重要訊息的及時傳達，促進員工的共識和配合最終提升整體的運營效率，為企業持續發展注入動力！

2024/05/23

2024/05/23

本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討，提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題，提供了設計系統和應用領域驅動設計的指導。

2024/05/09

2024/05/09

代理模式通過封裝原始對象來實現對該對象的控制和管理，同時不改變原始對象的行為或客戶端與該對象互動的方式，以此介入或增強對該對象的訪問和操作。

2024/04/24

2024/04/24

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News