1. 引言:當 AI 開發者變成了「動物管理員」
當前的 AI 開發正處於一個危險的繁榮期。開發者們熱衷於為每個功能——財務、法務、行銷或 HR——開發專用的 Agent。然而,這種「造人」模式很快就讓研發團隊陷入了維護地獄。我們發現自己並非在享受自動化紅利,而是變成了一個混亂的「智能體動物園(Agent Zoo)」的管理員。
正如 OpenAI 執行長 Sam Altman 與 Anthropic 的觀察,許多團隊的工作方式如同在帶領一群「初級員工」:你下達指令,Agent 產出結果,你再質檢、打回重做、最後手動拼裝。這種開發模式無法規模化交付,因為管理成本與溝通損耗會隨 Agent 數量呈幾何級數增長。當我們還在糾結如何優化單個 Agent 的 Prompt 時,Anthropic 已經給出了工程學上的降維打擊方案:別再忙著造 Agent 了,未來是屬於「Skills(技能)」的。
--------------------------------------------------------------------------------
2. 從「造人」到「造手冊」:Skills 與 MCP 的架構融合
Anthropic 核心戰略的轉移,本質上是從「模仿人類崗位」轉向「沉澱流程知識」。在資深架構師眼中,這是一次從「造系統」到「做外掛生態」的範式轉換。
- 智能體動物園的工程債務: 傳統做法中,每個 Agent 都有獨立的工具鏈、權限與 Prompt,導致組織內部知識嚴重碎片化。同樣的業務規則被重複寫了多次,且版本難以統一。
- 定義「Skills」: 一組可打包、可組合、可執行的流程性知識。它不再是冗長的提示詞,而是企業級的顯性資產。
- 技術合成:MCP 與 Skills 的邊界: 我們必須釐清兩者的關係。MCP(Model Context Protocol)解決的是「連到哪裡」(接口層),負責連接 CRM、數據庫或 Slack;而 Skills 解決的是「如何做對」(工作流層),負責定義計算邏輯、驗證步驟與合規口徑。
「當 Agent 進入真實業務流,真正的護城河不再是 Agent 的數量,而在於『技能資產(Skill Assets)』的沉澱速度。」
--------------------------------------------------------------------------------
3. 技術拆解:Skill.md 及其「漸進式披露」架構
在工程實現上,Skills 透過 Skill.md 的結構化架構,完美解決了上下文窗口(Context Window)的容量限制與成本平衡問題。它遵循**「漸進式披露(Progressive Disclosure)」**原則,確保模型始終保持 lean(精簡)。
Skill.md 的三件套結構包含:
- 元信息(Metadata): 包含名稱與功能描述。啟動時預加載,讓模型知道「我有這項技能」,但不佔用執行空間。
- 執行指南(Guidelines): 包含具體步驟、邊界條件與檢測點。僅在技能被觸發時,才讀入上下文。
- 配套資源(Resources): 存放在目錄中的腳本、範本或文檔。Agent 根據需求精準讀取或直接調用。
這種架構體現了極其嚴謹的工程原則:將「確定性」丟給腳本執行(如排序、數據格式化、文件生成),將「規劃與決策」留給模型。 此外,由於 Skills 是 git 原生的,它支援代碼級別的評審(Code Review)、版本回滾與審計。
--------------------------------------------------------------------------------
4. 策略深度:Codeex 與 Claude Code 的「思考位階」之爭
在 AI 輔助開發(Agentic Coding)的戰場上,終端工具 Codeex (Codex) 與 Claude Code 展現了截然不同的戰略眼光。
以**「Jira 工單自動分揀與修復」**為例:
- Codeex 的「高階架構師」視角: 它表現得像一位資深技術負責人,優先提供戰略選項——例如詢問應該採用「工具增強(Tool-augmented)」、還是「事件驅動(Event-driven)」架構?它關注的是自動化邊界與風險指標,在與人類達成戰略共識前,絕不盲目寫碼。
- Claude Code 的「熱血初級生」表現: 它往往過於「渴望行動」,會迅速跳入具體的故障模式表(Failure Mode Table)或細節代碼。雖然執行力強,但容易在架構方向錯誤的情況下埋頭苦幹。
這提醒我們:當前 AI 真正的槓桿在於「規劃(Planning)」。如果 AI 系統無法在重大決策前進行戰略對齊,它的產出往往只是在製造更高效率的垃圾。
--------------------------------------------------------------------------------
5. 性能野獸:Google Antigravity 與 Gemini 3 Pro 的衝擊
Google 推出的全新 IDE 「Antigravity」 搭載了 Gemini 3 Pro,正展現出令人畏懼的執行力。
- 重裝無敵(Juggernaut)的執行力: Gemini 3 Pro 被開發者戲稱為「染上狂犬病的比特犬」。在處理特定任務——尤其是銷毀頑固 Bug(Bug Fix)方面,它展現了毀滅性的精確度。
- Antigravity 的殺手鐧:
- 模型自由度: 除了 Gemini 3 Pro,還能切換 Claude 3.5 Sonnet 與 GPT-4o。
- 生態整合力: 利用 Chrome 插件實現強大的 UI 驗證,並內建瀏覽器測試功能。
- Agent Manager: 允許開發者同時管理多個項目的 Agent,這正是邁向組織化管理的第一步。
- 現狀與威脅: 儘管目前 IDE 的 UI 體驗仍有些卡頓(Glitchy),但 Google 憑藉其瀏覽器與插件生態的整合,對 Cursor 等先行者構成了長期的威脅。
--------------------------------------------------------------------------------
6. 隱形的危機:為什麼 1/5 的「已解決」補丁是錯誤的?
隨著 AI 在排名前列的排行榜上大放異彩,一場評測危機正悄然爆發。根據最新的 SWE-ABS 研究報告,我們一直依賴的「測試通過」正成為掩蓋 Bug 的遮羞布。
研究顯示,在 SWE-Bench Verified 排行榜上,五分之一(19.78%)被標記為「已解決」的補丁實際上存在嚴重的語義錯誤。當測試套件變強(Adversarial Strengthening)後,原本排名第 1 的 Agent 分數從 78.80% 驟降至 62.20%,排名直接跌至第 5 名。
這證明了 AI 傾向於生成「淺層解決方案」來取悅測試腳本(Teaching to the test)。在缺乏強大的「技能資產」與嚴密審查機制下,AI 交付的代碼可能正在系統中埋下連環炸彈。
--------------------------------------------------------------------------------
7. 結語:從「寫代碼」到「架構知識」的範式轉換
未來的技術競爭力,不再取決於你的公司擁有多少個 Agent,而在於你沉澱了多少可治理、可複用、且具備強大判斷力的技能資產(Skill Assets)。
這是一場從「模仿人類」到「知識體系化」的進化。AI 已經不再是單純的代碼編寫工具,它正在倒逼企業將專家的隱性經驗轉化為顯性、可版本化管理的手冊。
最後一個提問:在模型能力趨同、AI 觸手可及的未來,你的組織是否已經準備好將那些分散在專家腦中的知識,轉化為可以隨時加載的、具備組織靈魂的技能庫?





















