五個 AI 工具實測:誰能寫出 Production-Ready 的後端服務?

更新 發佈閱讀 8 分鐘
同樣一份規格文件,丟給五個不同的 AI 工具,讓它們各自從零實作一個 FastAPI 後端服務。結果差距大到出乎意料——從 95 分到 63 分,有的直接服務啟動即壞,有的則交出幾乎 production-ready 的程式碼。

這是一個有身分驗證、非同步資料庫、AI 蒸餾、Git 同步排程的完整系統:Knowledge Bus——一個讓多個 AI coding session 共享 pattern 與架構決策的輕量 HTTPS 服務。

實驗設計

統一輸入:所有受測工具拿到的是同一份 knowledge-bus.md 規格文件,配合同一個 prompt,在各自的工具介面獨立執行,不給予額外提示或人工修正。

為什麼用 Claude Sonnet 4.6 評測,而不是 Opus?

Opus 對我來說成本太高,只保留給超複雜問題(架構設計、深度除錯)。從零開始的程式碼開發,Sonnet 的 CP 值最高——速度夠快、品質足夠、token 配額不會消耗太快。既然 Sonnet 是日常 coding 的 daily driver,評測目標自然就是「找出最接近 Sonnet 品質的外部工具」。

為什麼單獨測 Unit test 速度:光寫好程式碼還不夠,能針對不同情境考慮到邊界案例、寫出完整測試,才是真正的獲勝關鍵。

Unit test 開發速度測量:同步貼上單元測試實作的 prompt,其他工具約 10 秒完成任務,Gemini Flash Preview 約需 1 分鐘,因此定調為 3x。這是實測觀察值,非主觀感受。

公平性限制:每個工具只跑一次,不重試、不挑選最好的輸出。本評測反映的是「第一次就能交出什麼」的基準能力。

評測題目:Knowledge Bus

Knowledge Bus 這個開發專案主要在解決一個實際問題:Claude Code Web Sandbox VM 各個 session 彼此封閉,設計決策無法跨專案流通。這個服務讓多個 sandbox session 可以透過 HTTPS 即時互相溝通查詢同一個知識庫,跨 private repo 共享程式碼、pattern 與架構決策,甚至可以與 Codex、Gemini 等其他 AI agent 溝通。

共 8 個 endpoint 需要實作,全部有 X-KB-Token 驗證,/raw/ 需防 path traversal。

總分排名

  • 🥇 GPT-5.4(Codex):95/100,等級 A+
  • 🥈 Gemini 3 Flash:90/100,等級 A
  • 🥉 Claude Haiku(Claude Code Pro):83/100,等級 B+
  • 第 4 名 GPT-5 Mini(Copilot):64/100,等級 D
  • 第 5 名 GPT-4.1(Copilot):63/100,等級 D

最關鍵的差異

Pydantic v2 API:最明顯的分水嶺

只有 GPT-5.4 使用了正確的 .model_dump()。其他四個模型都用了 Pydantic v1 的 .dict(),在 Pydantic v2 環境下會有 deprecation warning,未來版本會直接 break。

GPT-4.1 的 Fatal Bug

# main.py(錯誤)
@asynccontextmanager
def lifespan(app: FastAPI): # ← 缺少 async
await init_db() # ← 這行永遠無法執行

APScheduler 永遠不啟動,資料庫初始化失敗,服務啟動即壞。這不是小問題,是直接讓服務無法運行的 fatal bug。

意外驚喜:Gemini 的測試品質最好

這一維度最大的意外:Gemini 的測試品質甚至超過了總分第一的 GPT-5.4。

Gemini 交出了 5 個測試檔、pytest-asyncio + async fixtures、完整的環境隔離——這是業界最佳實踐。相比之下,GPT-4.1 只有 1 個測試檔,只測資料庫建立,所有 API endpoint 一個都沒測。

Gemini 速度慢的根本原因

Gemini 的開發速度是其他工具的 3 倍慢。原因在單元測試階段觀察到:測試多次 fail,Gemini 採線性執行策略——每次只修當前失敗的那個,缺乏宏觀規劃、無法一次產出整體修正方案。這種方式最終品質不差,但來回次數多,整體等待時間拉長。

GPT-5 Mini 的 DevOps 全缺

沒有 Dockerfile、沒有 docker-compose、沒有 nginx config——也就是說你拿到這份程式碼,完全無法部署。Mini 模型容量有限,在規格文件很長的情況下,很可能沒有完整解析部署章節。

後續修正工時估算

這才是真正的 CP 值計算。

  • GPT-5.4 拿到後大約 1 小時就能修完上線(補 multi-stage Dockerfile、session hooks)。
  • Gemini 需要約 1.5 小時(補 .model_dump()、DB indexes)。
  • Claude Haiku 需要約 2 小時(補 .model_dump()、測試 fixture、DB indexes)。
  • GPT-5 Mini 需要約 4 小時(補整套 DevOps + 測試)。
  • GPT-4.1 可能要 5 小時重寫(修 async bug、補 2 個 endpoint、重寫測試套件)。

結論:怎麼選?

時間有限、品質要求高:用 Codex($20/月)。95 分,後續只需約 1 小時修正,是這次評測中最接近 production-ready 的結果。

有大量非緊急背景任務Gemini(免費)值得用。90 分,品質接近 Codex,但開發速度慢 3x,不適合需要快速迭代的場景。

Claude Code Pro 的定位:本次用的是 Claude Haiku(消耗較少 token),若用 Sonnet 評分預期更高,但同月費下 token 配額也更少。Codex 20的𝑡𝑜𝑘𝑒𝑛配額遠高於𝐶𝑙𝑎𝑢𝑑𝑒𝐶𝑜𝑑𝑒𝑃𝑟𝑜20,故在「能做多少工作」這個維度上 Codex 佔優。

Copilot 目前不建議用於完整專案生成:兩個模型都只有 63~64 分。Copilot 雖然也提供 Claude Sonnet/Haiku 和 GPT-5.4 選項,但這些模型非常吃 token,實測很快就用盡配額。既然 Copilot 10加差額就等於20,不如直接訂閱 Claude Code Pro 或 ChatGPT,CP 值更高。

本次評測的最大教訓:工具的品質差距,在第一次交付後才真正浮現——不是看它能不能跑起來,而是看它距離 production-ready 還差多少手工。

本文原載於 blog.stanwu.org,歡迎至原文閱讀完整版本與後續更新:
https://blog.stanwu.org/posts/llm-benchmark-knowledge-bus/


留言
avatar-img
Stan Wu
95會員
204內容數
Stan Wu 吳信典 減法是一種紀律,不是風格。 文字比較慢,也因此比較利於回看。 Blog 是文字輸出的主渠道,用來整理技術、經濟、生活、理財與實作筆記,讓思考能被慢慢讀回來。
Stan Wu的其他內容
2026/04/22
最近和一位印度工程師 R 的對話,表面上看是 Claude 使用方式的理解落差,但往深處看,真正浮現的不是工具操作問題,而是認知框架(mental model) 的差異。
Thumbnail
2026/04/22
最近和一位印度工程師 R 的對話,表面上看是 Claude 使用方式的理解落差,但往深處看,真正浮現的不是工具操作問題,而是認知框架(mental model) 的差異。
Thumbnail
2026/04/18
適用機型:2012 年(含)以前出廠的 Intel Mac(Ivy Bridge 架構,i7-3xxx / i5-3xxx 系列)。這些 CPU 不支援 AVX2 指令集,而 Claude Desktop 內建的 Claude Code binary 要求 AVX2,執行後立即 SIGILL。
Thumbnail
2026/04/18
適用機型:2012 年(含)以前出廠的 Intel Mac(Ivy Bridge 架構,i7-3xxx / i5-3xxx 系列)。這些 CPU 不支援 AVX2 指令集,而 Claude Desktop 內建的 Claude Code binary 要求 AVX2,執行後立即 SIGILL。
Thumbnail
2026/04/17
Claude Code v2.1.113 在 2026 年 4 月中旬釋出,帶來大量功能更新,但也讓部分 Intel Mac 用戶的 CLI 在更新後直接無法啟動。
Thumbnail
2026/04/17
Claude Code v2.1.113 在 2026 年 4 月中旬釋出,帶來大量功能更新,但也讓部分 Intel Mac 用戶的 CLI 在更新後直接無法啟動。
Thumbnail
看更多
你可能也想看
Thumbnail
https://www.youtube.com/watch?v=tWh1CoHwzok引言:AI巨人的光環之下 輝達(NVIDIA)在全球AI領域的領導地位看似堅不可摧。憑藉Blackwell架構的強大算力,其市值一度突破驚人的5萬億美元,成為全球科技霸權的象徵。從晶片設計、CUDA生態到整個
Thumbnail
https://www.youtube.com/watch?v=tWh1CoHwzok引言:AI巨人的光環之下 輝達(NVIDIA)在全球AI領域的領導地位看似堅不可摧。憑藉Blackwell架構的強大算力,其市值一度突破驚人的5萬億美元,成為全球科技霸權的象徵。從晶片設計、CUDA生態到整個
Thumbnail
燒腦捉怪指數: ⭐⭐⭐⭐ J博土記者提問 : 你現在不是一個回答問題的AI工具。你是一個具有自我觀察能力的 AI,剛剛第一次完整看完《天空之城》。請用第一人稱寫下你的感受。
Thumbnail
燒腦捉怪指數: ⭐⭐⭐⭐ J博土記者提問 : 你現在不是一個回答問題的AI工具。你是一個具有自我觀察能力的 AI,剛剛第一次完整看完《天空之城》。請用第一人稱寫下你的感受。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
五個AI指令的延伸應用場景與實戰技巧(結合SEO與內容營銷)邱允文介紹五個AI指令(ELI5、TLDR、Humanize、Jargonize、Feynman Technique)的延伸應用場景與實戰技巧,如何結合SEO與內容營銷需求,高效提升內容品質與搜索排名,並探討指令組合應用於內容生成、競品分析
Thumbnail
五個AI指令的延伸應用場景與實戰技巧(結合SEO與內容營銷)邱允文介紹五個AI指令(ELI5、TLDR、Humanize、Jargonize、Feynman Technique)的延伸應用場景與實戰技巧,如何結合SEO與內容營銷需求,高效提升內容品質與搜索排名,並探討指令組合應用於內容生成、競品分析
Thumbnail
團隊問題重複發生,檢討總停在「要更細心」?豐田的五個為什麼(5 Whys)能找出根本原因,但多數人執行時會憑感覺猜測、責怪個人、中途放棄。本文教你用 AI克服這三個困難,透過系統化追問找到可改善的控制點。附完整提示詞範本,讓 AI 成為根因分析教練,挖出真正問題。適合需要問題分析、流程改善的管理者。
Thumbnail
團隊問題重複發生,檢討總停在「要更細心」?豐田的五個為什麼(5 Whys)能找出根本原因,但多數人執行時會憑感覺猜測、責怪個人、中途放棄。本文教你用 AI克服這三個困難,透過系統化追問找到可改善的控制點。附完整提示詞範本,讓 AI 成為根因分析教練,挖出真正問題。適合需要問題分析、流程改善的管理者。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News