同樣一份規格文件,丟給五個不同的 AI 工具,讓它們各自從零實作一個 FastAPI 後端服務。結果差距大到出乎意料——從 95 分到 63 分,有的直接服務啟動即壞,有的則交出幾乎 production-ready 的程式碼。
這是一個有身分驗證、非同步資料庫、AI 蒸餾、Git 同步排程的完整系統:Knowledge Bus——一個讓多個 AI coding session 共享 pattern 與架構決策的輕量 HTTPS 服務。
實驗設計
統一輸入:所有受測工具拿到的是同一份 knowledge-bus.md 規格文件,配合同一個 prompt,在各自的工具介面獨立執行,不給予額外提示或人工修正。
為什麼用 Claude Sonnet 4.6 評測,而不是 Opus?
Opus 對我來說成本太高,只保留給超複雜問題(架構設計、深度除錯)。從零開始的程式碼開發,Sonnet 的 CP 值最高——速度夠快、品質足夠、token 配額不會消耗太快。既然 Sonnet 是日常 coding 的 daily driver,評測目標自然就是「找出最接近 Sonnet 品質的外部工具」。
為什麼單獨測 Unit test 速度:光寫好程式碼還不夠,能針對不同情境考慮到邊界案例、寫出完整測試,才是真正的獲勝關鍵。
Unit test 開發速度測量:同步貼上單元測試實作的 prompt,其他工具約 10 秒完成任務,Gemini Flash Preview 約需 1 分鐘,因此定調為 3x。這是實測觀察值,非主觀感受。
公平性限制:每個工具只跑一次,不重試、不挑選最好的輸出。本評測反映的是「第一次就能交出什麼」的基準能力。
評測題目:Knowledge Bus
Knowledge Bus 這個開發專案主要在解決一個實際問題:Claude Code Web Sandbox VM 各個 session 彼此封閉,設計決策無法跨專案流通。這個服務讓多個 sandbox session 可以透過 HTTPS 即時互相溝通查詢同一個知識庫,跨 private repo 共享程式碼、pattern 與架構決策,甚至可以與 Codex、Gemini 等其他 AI agent 溝通。
共 8 個 endpoint 需要實作,全部有 X-KB-Token 驗證,/raw/ 需防 path traversal。
總分排名
- 🥇 GPT-5.4(Codex):95/100,等級 A+
- 🥈 Gemini 3 Flash:90/100,等級 A
- 🥉 Claude Haiku(Claude Code Pro):83/100,等級 B+
- 第 4 名 GPT-5 Mini(Copilot):64/100,等級 D
- 第 5 名 GPT-4.1(Copilot):63/100,等級 D
最關鍵的差異
Pydantic v2 API:最明顯的分水嶺
只有 GPT-5.4 使用了正確的 .model_dump()。其他四個模型都用了 Pydantic v1 的 .dict(),在 Pydantic v2 環境下會有 deprecation warning,未來版本會直接 break。
GPT-4.1 的 Fatal Bug
# main.py(錯誤)
@asynccontextmanager
def lifespan(app: FastAPI): # ← 缺少 async
await init_db() # ← 這行永遠無法執行
APScheduler 永遠不啟動,資料庫初始化失敗,服務啟動即壞。這不是小問題,是直接讓服務無法運行的 fatal bug。
意外驚喜:Gemini 的測試品質最好
這一維度最大的意外:Gemini 的測試品質甚至超過了總分第一的 GPT-5.4。
Gemini 交出了 5 個測試檔、pytest-asyncio + async fixtures、完整的環境隔離——這是業界最佳實踐。相比之下,GPT-4.1 只有 1 個測試檔,只測資料庫建立,所有 API endpoint 一個都沒測。
Gemini 速度慢的根本原因
Gemini 的開發速度是其他工具的 3 倍慢。原因在單元測試階段觀察到:測試多次 fail,Gemini 採線性執行策略——每次只修當前失敗的那個,缺乏宏觀規劃、無法一次產出整體修正方案。這種方式最終品質不差,但來回次數多,整體等待時間拉長。
GPT-5 Mini 的 DevOps 全缺
沒有 Dockerfile、沒有 docker-compose、沒有 nginx config——也就是說你拿到這份程式碼,完全無法部署。Mini 模型容量有限,在規格文件很長的情況下,很可能沒有完整解析部署章節。
後續修正工時估算
這才是真正的 CP 值計算。
- GPT-5.4 拿到後大約 1 小時就能修完上線(補 multi-stage Dockerfile、session hooks)。
- Gemini 需要約 1.5 小時(補
.model_dump()、DB indexes)。 - Claude Haiku 需要約 2 小時(補
.model_dump()、測試 fixture、DB indexes)。 - GPT-5 Mini 需要約 4 小時(補整套 DevOps + 測試)。
- GPT-4.1 可能要 5 小時重寫(修 async bug、補 2 個 endpoint、重寫測試套件)。
結論:怎麼選?
時間有限、品質要求高:用 Codex($20/月)。95 分,後續只需約 1 小時修正,是這次評測中最接近 production-ready 的結果。
有大量非緊急背景任務:Gemini(免費)值得用。90 分,品質接近 Codex,但開發速度慢 3x,不適合需要快速迭代的場景。
Claude Code Pro 的定位:本次用的是 Claude Haiku(消耗較少 token),若用 Sonnet 評分預期更高,但同月費下 token 配額也更少。Codex 20的𝑡𝑜𝑘𝑒𝑛配額遠高於𝐶𝑙𝑎𝑢𝑑𝑒𝐶𝑜𝑑𝑒𝑃𝑟𝑜20,故在「能做多少工作」這個維度上 Codex 佔優。
Copilot 目前不建議用於完整專案生成:兩個模型都只有 63~64 分。Copilot 雖然也提供 Claude Sonnet/Haiku 和 GPT-5.4 選項,但這些模型非常吃 token,實測很快就用盡配額。既然 Copilot 10加差額就等於20,不如直接訂閱 Claude Code Pro 或 ChatGPT,CP 值更高。
本次評測的最大教訓:工具的品質差距,在第一次交付後才真正浮現——不是看它能不能跑起來,而是看它距離 production-ready 還差多少手工。
本文原載於 blog.stanwu.org,歡迎至原文閱讀完整版本與後續更新:
https://blog.stanwu.org/posts/llm-benchmark-knowledge-bus/















