身為 OpenAI 主要競爭對手之一的 Anthropic,在 2025 年 8 月 6 日也發布了他們最新的模型更新:Claude Opus 4.1。這次的 4.1 版升級的重點鎖定在對專業人士重要的領域:程式碼撰寫、AI 代理人任務(Agentic Tasks)和深度推理。

Claude Opus 4.1 懶人包
- Claude Opus 4.1 專注於提升程式碼處理能力、AI 代理人執行複雜任務的能力,以及更高層次的推理分析。
- 價格與 Opus 4 完全相同。對於既有付費用戶來說,等於是「免費升級」。
- 付費的 Claude Pro/Max/Team 用戶可以直接使用。開發者則可以透過 Anthropic 的 API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台進行串接。
專門打造的程式碼能力
寫出具有單一函式的程式碼已經不是新聞,處理大型、多檔案的複雜專案,才是對 AI 程式能力的真正考驗,Opus 4.1 在這方面展現顯著進步:- 指標性測試結果提升:在業界公認的軟體工程評測 SWE-bench Verified 中,Opus 4.1 的分數從 72.5% 提升到 74.5%。這個模擬的是解決 GitHub 上真實的 issue,分數的提升代表它能更可靠地修復 bug 和完成功能開發。
- 合作夥伴的肯定:GitHub 指出,Opus 4.1 在「多檔案程式碼重構」方面有非常顯著的進步。日本電商巨頭樂天集團 (Rakuten Group) 則發現,Opus 4.1 非常擅長在龐大的程式碼庫中「精準定位問題並修正」,而不會引入新的 bug 或做多餘的修改。這對於日常的除錯工作來說,是極其寶貴的能力。

更聰明的 AI 代理人與學術研究
AI 代理人(Agent)是能自主規劃並執行多步驟任務的 AI 系統:
- 代理人任務:Opus 4.1 在用於評估代理人任務的 TAU-bench 評測中表現出色,更適合執行如「自動化多通路行銷活動」或「企業內部運營流程」等自主工作流。
- 學術級推理:在考驗研究生水準推理能力的 GPQA Diamond 評測上,分數從 79.6% 微幅提升至 80.9%。這代表它在處理和整合複雜資訊(如專利資料庫、學術論文)的能力上有所增強。
安全性的再升級
Anthropic 一向以「安全」為其核心理念。Opus 4.1 在這方面也進行了強化,其 AI 安全等級被歸類為 ASL-3。根據報告,對於違反政策的請求,其拒絕率從 97.27% 提高到 98.76%,同時保持了極低的「過度拒絕」率(僅 0.08%),確保在安全與實用性之間取得平衡。
TN科技筆記的觀點
- 從「跑分」到「解決問題」:相較於在通用測試上追求極致分數,Opus 4.1 更專注於解決開發者在「真實世界」中遇到的痛點,例如重構舊程式碼、精準除錯。這種價值導向的開發策略,更貼近市場的實際需求。
- 清晰的市場定位:如果說 OpenAI 近期發布的 gpt-oss 是面向廣大開發者和愛好者的「開放工具箱」,那 Claude Opus 4.1 就是為企業和專業人士打造的「高精度儀器」。
- 上下文視窗的競爭:Opus 4.1 支援 200K token 的上下文視窗,雖然已經非常龐大,但相較於競品如 Google Gemini 2.5 Pro 提供的 100 萬 token,仍有差距。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!