近期研讀了李宏毅教授關於 [AI Agent 運作原理] 的系列影片,內容將複雜的技術轉化為易懂的邏輯。
若想建立 AI 相關知識的堅實基礎,教授的教學影片是非常理想的參考資源。
以下以 OpenClaw(社群常稱為「龍蝦」)這類開源專案為基準,將 AI Agent 的核心機制與組成架構整理如下:一、 AI Agent 的定義與運作邏輯
AI Agent 扮演著「人類指令」與「語言模型 (LLM)」之間的關鍵溝通介面。其本質是一套由預設程式碼與規則組成的自動化程序,主要負責協調兩者的互動。

其基本運作流程包含以下階段:

- 系統提示詞加工 (System Prompt Construction): 當人類下達指令時,Agent 會同步調用地端電腦的設定檔(包含 Agent 身份、任務目標)以及過去的對話歷史,將這些資訊整合為一段完整的長文字,置於人類指令之前作為背景脈絡。
- 驅動語言模型進行預測: Agent 將加工後的長文字傳送至後端模型(如 GPT-4 或 Claude)。模型接收資訊後,會根據已有的文字內容進行「文字接龍」,預測並產出後續的字元 (Token)。
- 執行功能與循環回饋: 當模型產出一般敘述時,Agent 直接將結果呈現給人類;若模型產出的內容包含特定的「工具調用符號」(如讀取檔案指令),Agent 則會在電腦系統中執行該指令,並將執行後的數據反饋給模型。此循環會持續進行,直到模型判定任務達成並給出最終回覆。
二、 AI Agent 的四大核心組件
為了彌補語言模型的原生限制,AI Agent 透過以下架構讓模型能發揮如全天候助理般的功能:
1. 核心大腦 (The LLM Core)
AI Agent 的決策品質完全仰賴後端連接的語言模型。模型如同位於密閉空間內的運算核心,不具備自主記憶或感官,僅透過 Agent 提供的文字訊息進行邏輯預測。
2. 角色設定與身份定義 (Persona Design)
Agent 具備特定的人格特質,主要源於本地端儲存的 .md 文字檔案。每次互動時,Agent 會將這些行為準則與偏好強制寫入提示詞,引導模型產出符合特定角色背景的內容。
3. 記憶維護系統 (Memory Management)
由於模型本身不具備跨對話的記憶能力,Agent 建立了兩層記憶機制:
- 長期記憶 (RAG 檢索): Agent 能將重要資訊寫入記憶庫。當需要回溯過往資訊時,系統會比對「關鍵字出現頻率 (S1)」與「語意相似度 (S2)」進行綜合評分,精準提取相關片段供模型參考。
- 短期記憶壓縮 (Context Compression): 考量到模型的上下文容量限制,當對話過長時,Agent 會要求模型對舊對話進行「摘要總結」,以簡練的摘要取代原始細節,確保系統能長時間運作而不超出限制。

每一輪對話AI Agent會把對話內容的摘要或是覺得重要的資訊自己修改補充的對應的md檔中。有可能是長期記憶/靈魂設定/文字獄...等等md中
4. 工具調用與技能架構 (Tools & Skills)
這是讓模型具備實際執行能力的關鍵:
- 基礎工具: 涵蓋檔案讀寫與最強大的 Execute (程式碼執行) 功能。
- 子代理機制 (Subagent): 面對如閱讀多篇論文的大型任務,大 Agent 會指派工具產生子代 Agent 協助分工,僅接收子代處理後的精簡資訊,落實 Context Engineering (上下文工程) 的優化。

- 技能模組化 (Skills): 複雜任務會被標準化為 SOP 文字檔。Agent 採取「按需讀取」策略,僅在執行特定任務時才將對應技能載入系統提示詞。

5. 自主運行與排程機制
AI Agent 實現 24 小時運作的核心技術在於:
- 心跳觸發 (Heartbeat): Agent 透過設定好的週期(如 15 分鐘)發送主動指令「戳」一下模型,促使模型檢查進度或主動尋找待辦事項。

- 排程系統 (Cronjob): 結合排程工具,Agent 可以預約在未來特定時間啟動任務,讓 AI 具備「等待」與「跨時段管理」的能力。
![如果沒有排程機制,AI Agent只會停在回覆你[影片生成中]之後就不會有任何回應了,因為他沒有等待的功能。[3分鐘後檢查網頁]的排程功能會觸發AI Agent再去看剛剛等待的影片生成是否完成](https://resize-image.vocus.cc/resize?compression=6&norotation=true&url=https%3A%2F%2Fimages.vocus.cc%2Fa4e6adb9-5abf-4609-adfc-45f2a2326404.png&width=740&sign=ckeKXIFnO3RRvD_hu1IKJ0wNbkL8XMBza28QVFf83bs)
如果沒有排程機制,AI Agent只會停在回覆你[影片生成中]之後就不會有任何回應了,因為他沒有等待的功能。[3分鐘後檢查網頁]的排程功能會觸發AI Agent再去看剛剛等待的影片生成是否完成
總結
理解 AI Agent 的技術層次後,可以發現其效能源自於精密的程式架構與高效的上下文管理。掌握這套「文字接龍協調工具」的邏輯,將有助於更專業地應用 AI 科技。


















