從提示工程轉向代理式工程：AI應用的未來趨勢與實戰指南

這週參加 Google 活動帶來了非常大的震撼，深刻感受到在 AI 開發的領域中，我們正處於從 提示工程 (Prompt Engineering) 轉向 代理式工程 (Agentic Engineering) 的關鍵節點。

週末趁著熱度，花點時間上完了吳恩達 (Andrew Ng) 在 DeepLearning.AI 的課程《Agentic AI》。這門課讓我徹底理解 LLM 如何從單純的文字生成器，演變為能主動調用工具並進行複雜規劃的「代理人 (Agent)」，也讓我進一步掌握了 AI 應用的核心。

這堂課程非常實用，甚至解開了我最近幾個專案的卡點，非常推薦給大家！以下整理了課程中的 5 大核心重點與實戰場景拆解。

1. 為什麼選擇 Agentic AI？

Agentic AI 的核心在於它不僅僅是要求 LLM 生成回應（Zero-shot），而是一個 迭代的工作流程（Iterative Workflow）。它允許模型像人類一樣，透過思考、研究、修正和改進來完成任務。

突破模型性能極限傳統的 LLM 使用方式就像要求人類「一次性寫完論文，不能使用退格鍵」。代理式工作流程允許模型進行迭代（思考、研究、修訂），這能顯著提升產出品質。資料顯示，將較舊的模型（如 GPT-3.5）包裝在代理工作流程中，其在程式碼編寫任務上的表現甚至能超越沒有使用代理的更強模型（如 GPT-4）。
處理複雜任務透過將任務拆解為多個步驟（如：先寫大綱 → 再搜尋 → 最後寫作），代理能完成單次提示無法處理的深度任務。
平行處理 (Parallel Processing)代理可以同時執行多個子任務。例如：同時進行三個不同的網頁搜尋並下載頁面，這比人類依序閱讀網頁的速度快得多。
模組化與靈活性代理架構允許開發者針對特定步驟更換工具或模型（例如更換搜尋引擎或升級特定步驟的 LLM），使系統更具彈性。

反思是提升系統性能最簡單且有效的方法之一。這種模式雖然不能保證 100% 正確，但通常能帶來顯著的性能提升。

要求 LLM 檢查自己生成的結果（如程式碼或郵件草稿），找出錯誤或改進空間，並撰寫更好的版本。

雖然自我反思有用，但結合「外部資訊」的反思更為強大：

工具使用擴展了 LLM 的能力邊界，使其不僅僅是文字生成器。

解決幻覺與能力短板：LLM 本身不知道「現在幾點」或無法進行精確的數學運算。透過提供工具（如 getCurrentTime 或計算機），LLM 可以請求呼叫這些函式來獲取準確資訊。
運作流程：LLM 不會直接執行函式，而是輸出一個請求（JSON）。系統執行函式後，將結果（如 "8:00 AM"）回傳給 LLM，最後由 LLM 生成最終回答。
程式碼執行作為工具 (Code Execution)：這是一種特殊的強大工具。允許 LLM 編寫並執行 Python 程式碼來解決數學問題或數據分析，這比讓 LLM 直接預測答案準確得多。
MCP (Model Context Protocol)：這是一個開放標準，旨在解決開發者需要為每個數據源（Slack, GitHub, Drive）重複編寫連接器的問題。MCP 讓開發者只需構建一次連接，就能讓 AI 應用程式存取多種數據與工具。

這是區分高效能團隊與普通團隊的關鍵技能。Andrew Ng 強調要建立「有紀律的開發流程」。

不要花數週空想完美架構。先快速建立原型（Quick and dirty），然後觀察失敗案例。

根據任務性質選擇評估方式：

除了評估整個系統，也應隔離出單一組件（如搜尋模組）進行獨立評估，以加速優化迭代。

這是更高階的自主性設計，讓 AI 自行決定如何解決問題。

不再由開發者寫死步驟（Hard-code），而是提供一組工具，要求 LLM 生成「逐步計畫 (Step-by-step plan)」並執行。
程式碼規劃 (Planning with Code)：相比於輸出 JSON 計畫，讓 LLM 直接寫程式碼來規劃步驟（例如使用 Pandas 分析數據）通常表現更好且更靈活。

透過指派不同角色（如研究員、圖形設計師、撰稿人）來協作，能比單一通用模型完成更複雜的任務。常見的溝通模式包括：

最後，將上述概念應用到實際的企業場景中：

這類有明確規則的 SOP 最容易轉化，通常是線性 (Linear) 且低自主性 (Less Autonomous) 的流程。

這類流程需要模型介入判斷，屬於 Human-in-the-loop 的應用。

總結來說，Agentic AI 透過「工具與規劃」獲得執行力，透過「反思與多代理協作」提升品質，並依賴嚴謹的「評估與錯誤分析」來持續優化系統。這正是未來 AI 開發的新範式！