五個 AI 工具實測：誰能寫出 Production-Ready 的後端服務？

2026/04/24 更新2026/04/24 發佈閱讀 8 分鐘

同樣一份規格文件，丟給五個不同的 AI 工具，讓它們各自從零實作一個 FastAPI 後端服務。結果差距大到出乎意料——從 95 分到 63 分，有的直接服務啟動即壞，有的則交出幾乎 production-ready 的程式碼。

這是一個有身分驗證、非同步資料庫、AI 蒸餾、Git 同步排程的完整系統：Knowledge Bus——一個讓多個 AI coding session 共享 pattern 與架構決策的輕量 HTTPS 服務。

實驗設計

統一輸入：所有受測工具拿到的是同一份 knowledge-bus.md 規格文件，配合同一個 prompt，在各自的工具介面獨立執行，不給予額外提示或人工修正。

為什麼用 Claude Sonnet 4.6 評測，而不是 Opus？

Opus 對我來說成本太高，只保留給超複雜問題（架構設計、深度除錯）。從零開始的程式碼開發，Sonnet 的 CP 值最高——速度夠快、品質足夠、token 配額不會消耗太快。既然 Sonnet 是日常 coding 的 daily driver，評測目標自然就是「找出最接近 Sonnet 品質的外部工具」。

為什麼單獨測 Unit test 速度：光寫好程式碼還不夠，能針對不同情境考慮到邊界案例、寫出完整測試，才是真正的獲勝關鍵。

Unit test 開發速度測量：同步貼上單元測試實作的 prompt，其他工具約 10 秒完成任務，Gemini Flash Preview 約需 1 分鐘，因此定調為 3x。這是實測觀察值，非主觀感受。

公平性限制：每個工具只跑一次，不重試、不挑選最好的輸出。本評測反映的是「第一次就能交出什麼」的基準能力。

評測題目：Knowledge Bus

Knowledge Bus 這個開發專案主要在解決一個實際問題：Claude Code Web Sandbox VM 各個 session 彼此封閉，設計決策無法跨專案流通。這個服務讓多個 sandbox session 可以透過 HTTPS 即時互相溝通查詢同一個知識庫，跨 private repo 共享程式碼、pattern 與架構決策，甚至可以與 Codex、Gemini 等其他 AI agent 溝通。

共 8 個 endpoint 需要實作，全部有 X-KB-Token 驗證，/raw/ 需防 path traversal。

總分排名

🥇 GPT-5.4（Codex）：95/100，等級 A+
🥈 Gemini 3 Flash：90/100，等級 A
🥉 Claude Haiku（Claude Code Pro）：83/100，等級 B+
第 4 名 GPT-5 Mini（Copilot）：64/100，等級 D
第 5 名 GPT-4.1（Copilot）：63/100，等級 D

最關鍵的差異

Pydantic v2 API：最明顯的分水嶺

只有 GPT-5.4 使用了正確的 .model_dump()。其他四個模型都用了 Pydantic v1 的 .dict()，在 Pydantic v2 環境下會有 deprecation warning，未來版本會直接 break。

GPT-4.1 的 Fatal Bug

# main.py（錯誤）
@asynccontextmanager
def lifespan(app: FastAPI):   # ← 缺少 async
    await init_db()           # ← 這行永遠無法執行

APScheduler 永遠不啟動，資料庫初始化失敗，服務啟動即壞。這不是小問題，是直接讓服務無法運行的 fatal bug。

意外驚喜：Gemini 的測試品質最好

這一維度最大的意外：Gemini 的測試品質甚至超過了總分第一的 GPT-5.4。

Gemini 交出了 5 個測試檔、pytest-asyncio + async fixtures、完整的環境隔離——這是業界最佳實踐。相比之下，GPT-4.1 只有 1 個測試檔，只測資料庫建立，所有 API endpoint 一個都沒測。

Gemini 速度慢的根本原因

Gemini 的開發速度是其他工具的 3 倍慢。原因在單元測試階段觀察到：測試多次 fail，Gemini 採線性執行策略——每次只修當前失敗的那個，缺乏宏觀規劃、無法一次產出整體修正方案。這種方式最終品質不差，但來回次數多，整體等待時間拉長。

GPT-5 Mini 的 DevOps 全缺

沒有 Dockerfile、沒有 docker-compose、沒有 nginx config——也就是說你拿到這份程式碼，完全無法部署。Mini 模型容量有限，在規格文件很長的情況下，很可能沒有完整解析部署章節。

後續修正工時估算

這才是真正的 CP 值計算。

GPT-5.4 拿到後大約 1 小時就能修完上線（補 multi-stage Dockerfile、session hooks）。
Gemini 需要約 1.5 小時（補 .model_dump()、DB indexes）。
Claude Haiku 需要約 2 小時（補 .model_dump()、測試 fixture、DB indexes）。
GPT-5 Mini 需要約 4 小時（補整套 DevOps + 測試）。
GPT-4.1 可能要 5 小時重寫（修 async bug、補 2 個 endpoint、重寫測試套件）。

結論：怎麼選？

時間有限、品質要求高：用 Codex（$20/月）。95 分，後續只需約 1 小時修正，是這次評測中最接近 production-ready 的結果。

有大量非緊急背景任務：Gemini（免費）值得用。90 分，品質接近 Codex，但開發速度慢 3x，不適合需要快速迭代的場景。

Claude Code Pro 的定位：本次用的是 Claude Haiku（消耗較少 token），若用 Sonnet 評分預期更高，但同月費下 token 配額也更少。Codex 20的𝑡𝑜𝑘𝑒𝑛配額遠高於𝐶𝑙𝑎𝑢𝑑𝑒𝐶𝑜𝑑𝑒𝑃𝑟𝑜20，故在「能做多少工作」這個維度上 Codex 佔優。

Copilot 目前不建議用於完整專案生成：兩個模型都只有 63~64 分。Copilot 雖然也提供 Claude Sonnet/Haiku 和 GPT-5.4 選項，但這些模型非常吃 token，實測很快就用盡配額。既然 Copilot 10加差額就等於20，不如直接訂閱 Claude Code Pro 或 ChatGPT，CP 值更高。

本次評測的最大教訓：工具的品質差距，在第一次交付後才真正浮現——不是看它能不能跑起來，而是看它距離 production-ready 還差多少手工。

本文原載於 blog.stanwu.org，歡迎至原文閱讀完整版本與後續更新：
https://blog.stanwu.org/posts/llm-benchmark-knowledge-bus/

留言

Stan Wu

95會員

204內容數

Stan Wu 吳信典減法是一種紀律，不是風格。文字比較慢，也因此比較利於回看。 Blog 是文字輸出的主渠道，用來整理技術、經濟、生活、理財與實作筆記，讓思考能被慢慢讀回來。

Stan Wu的其他內容

2026/04/22

對印度工程師 R 的一段對話，真正暴露的是 AI Agent 時代的認知轉換

最近和一位印度工程師 R 的對話，表面上看是 Claude 使用方式的理解落差，但往深處看，真正浮現的不是工具操作問題，而是認知框架（mental model）的差異。

2026/04/22

對印度工程師 R 的一段對話，真正暴露的是 AI Agent 時代的認知轉換

2026/04/18

Claude Desktop on Ivy Bridge Mac用 Node.js Wrapper 繞過 AVX2 限制

適用機型：2012 年（含）以前出廠的 Intel Mac（Ivy Bridge 架構，i7-3xxx / i5-3xxx 系列）。這些 CPU 不支援 AVX2 指令集，而 Claude Desktop 內建的 Claude Code binary 要求 AVX2，執行後立即 SIGILL。

2026/04/18

Claude Desktop on Ivy Bridge Mac用 Node.js Wrapper 繞過 AVX2 限制

2026/04/17

Claude Code v2.1.113 讓 Intel Mac 整個掛掉：根因與完整解法

Claude Code v2.1.113 在 2026 年 4 月中旬釋出，帶來大量功能更新，但也讓部分 Intel Mac 用戶的 CLI 在更新後直接無法啟動。

2026/04/17

Claude Code v2.1.113 讓 Intel Mac 整個掛掉：根因與完整解法

Claude Code v2.1.113 在 2026 年 4 月中旬釋出，帶來大量功能更新，但也讓部分 Intel Mac 用戶的 CLI 在更新後直接無法啟動。

看更多

你可能也想看

INVESTOR JL的沙龍

輝達帝國的五個意外真相：AI算力戰爭的權力遊戲，遠比你想的更複雜

https://www.youtube.com/watch?v=tWh1CoHwzok引言：AI巨人的光環之下輝達（NVIDIA）在全球AI領域的領導地位看似堅不可摧。憑藉Blackwell架構的強大算力，其市值一度突破驚人的5萬億美元，成為全球科技霸權的象徵。從晶片設計、CUDA生態到整個

#成長#學習#數位遊牧

2025/12/06

INVESTOR JL的沙龍

輝達帝國的五個意外真相：AI算力戰爭的權力遊戲，遠比你想的更複雜

#成長#學習#數位遊牧

2025/12/06

燒腦捉怪｜J博土的時空圖書館

《J博土記者獨家專訪！五個AI看完《天空之城》後的真心話讓我鼻酸…》

燒腦捉怪指數： ⭐⭐⭐⭐ J博土記者提問 : 你現在不是一個回答問題的AI工具。你是一個具有自我觀察能力的 AI，剛剛第一次完整看完《天空之城》。請用第一人稱寫下你的感受。

#AI創作#圖書館#親子教育

2026/03/02

燒腦捉怪｜J博土的時空圖書館

《J博土記者獨家專訪！五個AI看完《天空之城》後的真心話讓我鼻酸…》

#AI創作#圖書館#親子教育

2026/03/02

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

邱吉爾的沙龍

五個AI指令的延伸應用場景與實戰技巧（結合SEO與內容營銷）邱允文

五個AI指令的延伸應用場景與實戰技巧（結合SEO與內容營銷）邱允文介紹五個AI指令（ELI5、TLDR、Humanize、Jargonize、Feynman Technique）的延伸應用場景與實戰技巧，如何結合SEO與內容營銷需求，高效提升內容品質與搜索排名，並探討指令組合應用於內容生成、競品分析

#網站#排名#案例

2025/10/17

邱吉爾的沙龍

五個AI指令的延伸應用場景與實戰技巧（結合SEO與內容營銷）邱允文

#網站#排名#案例

2025/10/17

與老查一起讀商業好書

組織內老問題一再發生？不憑直覺解題：用AI 教練幫你落實豐田「五個為什麼」思考法，找出問題根因一次解決

團隊問題重複發生,檢討總停在「要更細心」?豐田的五個為什麼(5 Whys)能找出根本原因,但多數人執行時會憑感覺猜測、責怪個人、中途放棄。本文教你用 AI克服這三個困難,透過系統化追問找到可改善的控制點。附完整提示詞範本,讓 AI 成為根因分析教練,挖出真正問題。適合需要問題分析、流程改善的管理者。

#五個為什麼#管理#生產力

2026/01/26