上一篇〈生成式AI,不只是點餐那麼簡單〉的發表時間是去年六月,沒有想到居然在8個月後就要來聊聊下一個概念——「AI Agent」了。
最近身旁的人偶爾會聊AI Agent這個概念,各種「Skill」「MCP」「RAG」的名詞也一直交錯出現……。
我的想法始終如一——要用好一項工具,前提是要對它理解足夠透徹。不一定要像工程師那樣深入,但是基本的概念了解卻不可少。

從點餐到出菜:拆解 AI Agent 運作的四位關鍵角色
但在一切開始之前,我想要先請你忘掉那些看起來很高大上又很難懂得專有名詞,只要想像一件事情:
你走進了一間餐廳、坐下來,旁邊站了一位服務生,他會為你提供服務,你只要告訴他今天想吃什麼樣口味、什麼料理,他會幫你「客製」出你要的菜單。
在這個過程當中,就會產生四個角色,讓我們一一道來。
客人(User):他要的不只是菜名,而是「結果期待」
當客人走進餐廳,他通常不知道每一道菜餚的作法、甚至不知道自己想要吃的「菜名」,但他至少會知道自己的「偏好」
今天想吃清爽一點、不要太油、有一點辣可以、不要牛肉。另外,我現在有點渴。
或者,他今天跟朋友一起來:
有沒有適合大家一起吃的菜?
而或許客人在吃到自己不滿意的料理時,也會反應自己需求提出修正:
份量有一點太大了,而且還是有點太油。
換成 AI Agent 的語境,這就是用戶的行為。使用者通常不會給 AI 一條可以直接執行的指令,而是給一個目標或意圖,例如幫我整理這場會議的重點、我下週有哪些事情、幫我回這封信但不要太正式、把這段話改得比較委婉。
這些要求都不是操作步驟,而是「結果期待」。用戶並不關心系統要怎麼完成,他關心的是最後產出的內容是否符合自己的需要,因此在 AI Agent 中,用戶的角色是提出目標、提供偏好並持續修正結果,而不是規劃執行過程。
服務生(Agent):不只是傳話,更是任務的「總策劃」
服務生在餐廳中真正做的事情,其實遠遠不只是點餐。他要根據客人的偏好、結合自己對餐廳的了解,將「客人的需求」變成「廚房可以執行的指令」,並且傳遞給廚房。
清爽一點、不要牛肉?那『涼拌雞肉沙拉』應該是符合需求的!
客人說他有點渴,那我應該先上飲料,再上料理。
然後他會跟廚房說:
飲料組先給我一杯紅茶,涼菜組做一碗『涼拌雞肉沙拉』!
這就是服務生的角色,理解客人意圖、安排流程,他本身並不做菜,而是理解、決策與協調。
這正是 AI Agent 的角色。Agent 並不是模型本身,而是一個負責理解用戶意圖、拆解任務、選擇適合工具、安排執行順序並整合結果的協調者。
當使用者說幫我看這段逐字稿並整理待辦時,Agent 並不是直接知道答案,而是先找到逐字稿,再決定要使用摘要工具,接著再用抽取工具,最後整理格式呈現給使用者。換句話說,Agent 的本質不是產生內容,而是規劃行動。
廚師(Tools):穩定出餐的秘訣在於「標準食譜」
在餐廳中,真正負責完成料理的是廚師,而每位廚師通常都有明確的分工,例如有人專門負責飲料、有人負責烤台、有人負責甜點。廚師不需要與客人溝通,也不需要規劃整個餐期的流程,他甚至不必知道客人是誰,他只需要知道自己要做哪一道料理並穩定完成。
廚房並不會收到「客人的意圖」,而是「一道具體的菜名」。對廚師而言,重點不是理解需求,而是照規格完成,因此他腦袋裡最重要的東西其實是「食譜」──這一道菜要用什麼材料、什麼順序、什麼火候完成。
這裡有一個很關鍵的差別:廚師是能力,而食譜是流程。
同一位廚師,如果沒有食譜,他仍然會做菜,但結果會變得不穩定;而當一間餐廳把食譜建立起來時,就算換了一位廚師,客人吃到的味道仍然可以接近一致。對一間餐廳而言,真正能長期累積價值的,往往不是廚師個人的技術,而是那一套被整理過、可以重複執行的做菜方法。
在 AI Agent 中,廚師就是工具,而食譜就是業務邏輯。工具可以是搜尋、寄信、讀檔案、語音轉文字、摘要、資料庫查詢或排程,每一個工具都只負責一種明確的工作,而且往往比 Agent 更可靠,因為工具不需要理解目標,只需要完成指定任務。
很多人以為 AI Agent 是一個能力很強的模型,其實真正讓 Agent 能夠完成複雜任務的,並不是它自己會做所有事情,而是它可以依照既定的流程去呼叫不同工具。換句話說,Agent 的能力上限,往往取決於你為它設計了多少「食譜」。
廚房與食材(Data):沒有糧倉,再強的廚師也難為無米之炊
即使有好的服務生與優秀的廚師,如果廚房裡沒有食材,餐廳仍然什麼都做不出來。料理依賴的是廚房的設備與冰箱中的庫存,例如肉品、蔬菜、調味料與事先準備好的醬料。廚師的能力決定料理品質,但食材決定餐廳到底能提供什麼。
在 AI Agent 中,這個角色就是資料與系統,包括資料庫、檔案、知識庫、行事曆與歷史紀錄。工具負責讀寫它們,Agent 負責決定何時使用工具,但真正提供內容的是資料本身。
這也是為什麼很多人會覺得 AI 很聰明卻幫不了實際工作,因為模型就像一位很會溝通的服務生,被帶進了一間沒有廚房與冰箱的餐廳。它可以理解你的需求,也可以跟你對話,但當它需要查資料、操作系統或依據過去紀錄做決策時,卻沒有任何東西可以使用。
當四個角色放在一起看時,你會發現 AI Agent 其實不是一個「更強的 ChatGPT」,而是一種分工結構。用戶提出目標,Agent 規劃流程,工具執行動作,資料提供內容,而所謂的導入 AI,很多時候並不是換一個模型,而是開始整理你的食譜、準備你的廚房,讓這個服務生真的有事情可以幫你完成。
蓋一間餐廳的重點:為什麼模型不是唯一的關鍵?
如果把餐廳的比喻走到底,你會發現,建立一個真正可用的 AI Agent,其實不是去找一個更聰明的服務生,而是在做兩件更根本的事情。
定義標準:寫下你的食譜,讓結果變得可重現
很多人導入 AI 時,急著問模型夠不夠強、夠不夠聰明,卻沒有先問自己一個問題:這間餐廳到底應該提供哪些菜?什麼叫做「做好」?什麼樣的結果才算符合期待?
在餐廳裡,這就是食譜的建立。你需要決定一道菜的材料比例、順序與標準,並且讓廚師可以穩定重現。換成 AI 的語境,這其實就是訂定結果標準與沉澱業務邏輯。你要先想清楚,一份「整理好的會議重點」應該長什麼樣子,一份「可用的待辦事項清單」應該包含哪些欄位,一封「合適的回信」應該維持什麼語氣與結構。
如果沒有這些標準,就算工具再多、模型再強,產出的結果也會漂移不定,因為廚師根本不知道你要什麼味道。
設計邊界:畫出菜單,讓 Agent 知道何時呼叫工具
服務生再聰明,如果不知道廚房能做什麼,他就無法安排流程。他需要知道有哪些料理、每道菜大概需要多久、哪些可以一起上、哪些必須分開。換成 AI Agent 的語境,這就是明確定義它「能做什麼」以及「應該怎麼做」。
這包括有哪些工具可以呼叫、每個工具負責什麼工作、什麼情境下該用哪一個,以及執行順序應該如何安排。當這些規則被說清楚之後,服務生才能穩定地把客人的需求轉成可執行的行動。
因此,建立 AI Agent 並不是單純的技術問題,而是一種整理工作的過程。你一邊在為廚師寫食譜,讓結果變得可重現;一邊在為服務生畫菜單,讓流程變得可安排。當這兩件事完成之後,Agent 才真的有可能既強大又可控,而不是偶爾表現驚艷、偶爾又讓人心驚膽跳。
(同場加映)當服務生拿起了主廚刀:OpenClaw 如何重塑遊戲規則
前面我們的餐廳一直維持一個穩定的分工結構:客人提出需求,服務生理解並安排,廚師負責做菜,廚房與食材提供內容。在這樣的情境中,即使服務生理解錯誤,影響通常是有限的,最壞的情況只是端錯一道菜,而不是整間餐廳出問題。
openclaw 這類 Agent 框架的特別之處,在於它改變的不是「服務生有沒有更聰明」,而是「服務生能不能動手」。
它讓服務生不再只是站在客人旁邊解釋菜單,而是可以直接走進廚房,打開冰箱、拿起鍋子、開火並完成料理。也就是說,AI 不再只負責回答問題,而是開始直接操作電腦本身,例如讀取檔案、寫入資料、執行程式或觸發自動化流程。
從「建議者」到「執行者」:能力邊界的擴展
過去的聊天式 AI,比較像一位非常博學的服務生,你可以問他應該怎麼整理會議紀錄、怎麼安排工作或怎麼寫信,他能給你建議與內容,但真正的動作仍然在你手上;而在 openclaw 這樣的系統中,當你問「我下週有哪些待辦事項」時,它不是猜測或憑記憶回答,而是可以自己打開你的紀錄、整理資訊後再回覆你。當你說幫我整理逐字稿,它不是告訴你怎麼整理,而是直接去讀檔、處理並產出結果。
用餐廳的比喻來說,你不再只是得到推薦,而是服務生真的幫你把菜做好了。
這就是 Agent 之所以強大的原因。它不是讓 AI 更會聊天,而是讓 AI 參與行動。
權力的代價:當判斷錯誤變成實際行為的風險
服務生畢竟不是廚師。他可以照印象煮出一碗麵,但他不一定理解火候、不一定知道哪些食材不能混用,也不一定分得清哪些是備料、哪些是重要庫存。當他只負責傳話時,錯誤停留在理解層面;但當他開始動手時,錯誤就會變成實際行為。
在 AI Agent 裡也是一樣。語言模型擅長的是推測意圖與生成內容,而不是精確地操作系統。當它只回覆文字時,即使理解不完全正確,代價通常有限;但當它可以修改檔案、覆寫資料或執行程式時,一次錯誤的判斷就可能變成刪除紀錄、錯誤排程甚至觸發不該執行的流程。
換句話說,Agent 框架帶來的並不是單純的能力提升,而是一個角色的改變:AI 從「提供建議的工具」,變成「參與工作的角色」。
因此問題不再只是模型夠不夠聰明,而是你是否為這位服務生設計好邊界。沒有規則的服務生會造成混亂,而設計良好的服務生才會成為助手。當 AI 能直接操作系統時,真正重要的就不再是它會不會回答問題,而是你是否決定了它可以做什麼,以及不可以做什麼。
結尾:AI 變強了,還是你的「食譜」清楚了?
在我使用 AI 的過程中,一開始我把 AI 當成會聊天的工具,它能給建議、改文字、寫 Code,但始終停在輔助的程度。直到 Openclaw 出現,我開始讓它讀檔案、整理紀錄、確認待辦時,我才意識到差別不在聰不聰明,而在它開始參與我的工作流程。
而我其實一直都知道——它並不可靠。判斷錯誤、理解偏差,甚至一本正經地胡說八道。這並不只是 AI 不夠強,而是它的先天限制,也同時反映了人類工作的方式。很多人可以靠習慣與直覺完成的事情,一旦交給另一個角色,那些沒有被說清楚的流程與標準就會全部暴露出來。
與其說我在建立 AI Agent,更像是在重新理解自己的工作。當我把規則寫下來、把資料整理好、把邊界定清楚後,它才開始能穩定地加入我的工作流程——不是 AI 變強了,而是「食譜」清楚了。
所以對我來說,AI Agent 不是一個更聰明的 ChatGPT,而是一個開始參與你工作的角色。而當你真的準備好讓它參與時,你會發現,你其實也同時重新設計了自己的工作方式。
CTA
我的所有文章都是我濃縮之後的心血,所有文章都是免費公開,
所以.....
如果你認同我的內容有所幫助,
歡迎在「方格子」或是「Linkedin」給我一個愛心or讚!
如果你認為我的內容可以幫助到更多人,
歡迎在各種管道進行分享!
如果你想要給我回饋或是有任何想法,
歡迎在「方格子」或是「Linkedin」留言告訴我!
這對我真的很重要!

























