Anthropic 發佈 Claude Opus 4.1 ：專為「寫程式」而生的 AI 模型？

2025/08/07 更新2025/08/07 發佈閱讀 5 分鐘

身為 OpenAI 主要競爭對手之一的 Anthropic，在 2025 年 8 月 6 日也發布了他們最新的模型更新：Claude Opus 4.1。這次的 4.1 版升級的重點鎖定在對專業人士重要的領域：程式碼撰寫、AI 代理人任務（Agentic Tasks）和深度推理。

Claude Opus 4.1 懶人包

Claude Opus 4.1 專注於提升程式碼處理能力、AI 代理人執行複雜任務的能力，以及更高層次的推理分析。
價格與 Opus 4 完全相同。對於既有付費用戶來說，等於是「免費升級」。
付費的 Claude Pro/Max/Team 用戶可以直接使用。開發者則可以透過 Anthropic 的 API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台進行串接。

寫出具有單一函式的程式碼已經不是新聞，處理大型、多檔案的複雜專案，才是對 AI 程式能力的真正考驗，Opus 4.1 在這方面展現顯著進步：

指標性測試結果提升：在業界公認的軟體工程評測 SWE-bench Verified 中，Opus 4.1 的分數從 72.5% 提升到 74.5%。這個模擬的是解決 GitHub 上真實的 issue，分數的提升代表它能更可靠地修復 bug 和完成功能開發。
合作夥伴的肯定：GitHub 指出，Opus 4.1 在「多檔案程式碼重構」方面有非常顯著的進步。日本電商巨頭樂天集團 (Rakuten Group) 則發現，Opus 4.1 非常擅長在龐大的程式碼庫中「精準定位問題並修正」，而不會引入新的 bug 或做多餘的修改。這對於日常的除錯工作來說，是極其寶貴的能力。

AI 代理人（Agent）是能自主規劃並執行多步驟任務的 AI 系統：

代理人任務：Opus 4.1 在用於評估代理人任務的 TAU-bench 評測中表現出色，更適合執行如「自動化多通路行銷活動」或「企業內部運營流程」等自主工作流。
學術級推理：在考驗研究生水準推理能力的 GPQA Diamond 評測上，分數從 79.6% 微幅提升至 80.9%。這代表它在處理和整合複雜資訊（如專利資料庫、學術論文）的能力上有所增強。

Anthropic 一向以「安全」為其核心理念。Opus 4.1 在這方面也進行了強化，其 AI 安全等級被歸類為 ASL-3。根據報告，對於違反政策的請求，其拒絕率從 97.27% 提高到 98.76%，同時保持了極低的「過度拒絕」率（僅 0.08%），確保在安全與實用性之間取得平衡。

從「跑分」到「解決問題」：相較於在通用測試上追求極致分數，Opus 4.1 更專注於解決開發者在「真實世界」中遇到的痛點，例如重構舊程式碼、精準除錯。這種價值導向的開發策略，更貼近市場的實際需求。
清晰的市場定位：如果說 OpenAI 近期發布的 gpt-oss 是面向廣大開發者和愛好者的「開放工具箱」，那 Claude Opus 4.1 就是為企業和專業人士打造的「高精度儀器」。
上下文視窗的競爭：Opus 4.1 支援 200K token 的上下文視窗，雖然已經非常龐大，但相較於競品如 Google Gemini 2.5 Pro 提供的 100 萬 token，仍有差距。