(2025年11月25日更新)近兩週可說是頂尖AI模型的軍備競賽,除了Open AI推出的GPT-5.1,接著有xAI 推出的Grok 4.1,然後是Google 的 Gemini 3 Pro,Anthropic 也不忍了,在 2025 年 11 月 24 日再度投下震撼彈,正式發布其最新的旗艦 AI 模型:Claude Opus 4.5。這是 Anthropic 在短短兩個月內發布的第三個主要模型,官方直接宣稱其為「best model in the world for coding, agents, and computer use」,為其卓越的專業能力設定了明確的基調。

Claude Opus 4.5 核心亮點速覽
- 最強的編碼與代理能力: 在軟體工程基準測試中,Opus 4.5 展現了業界頂尖的水準。特別是在代理式編碼(agentic coding)方面,根據權威測試集 SWE-bench Verified 的數據,其表現已超越 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT-5.1。
- 更親民的頂級性能: 最新的定價策略將輸入與輸出成本分別降至每百萬 token 5 美元和 25 美元,雖仍高於 GPT-5.1(1.25/10)和 Gemini 3 Pro(2/12),但相較於前代 Opus 4.1 的 15/75 美元已大幅降低。此舉清晰地表明,頂級模型之戰除了能力比拼,性價比也是考量因素。
- 為專業工作者而生: Anthropic 明確指出,此模型的理想使用者是專業軟體開發者和知識工作者,例如需要處理複雜分析任務的金融分析師、顧問和會計師。
- 更全面的生態系整合: 此次更新, Anthropic 也開始進行生態系整合,透過全面升級 Claude Code、Chrome 擴充功能和 Excel 工具,將頂尖 AI 能力從 API 深入到專業工作者的日常流程中,構建更深的護城河。
模型能力深度解析
1. 無可匹敵的工程與編碼實力
Claude Opus 4.5 在程式設計與軟體工程領域展現了驚人的實力,根據官方註解,在規定的 2 小時內,其得分超越了所有人類應試者;若沒有時間限制,其表現甚至與史上最佳的人類應試者持平,直接證明了其頂尖的技術解決能力。
多位獲得早期測試者也給予了高度評價,認為Opus 4.5 「代表了自我改進 AI Agent 的一次突破」,同時,Opus 4.5的工程實力亦有多項基準測試驗證:在 Aider Polyglot 測試中比 Sonnet 4.5 提升了 10.6%,並在衡量長期任務連貫性的 Vending-Bench 中取得了 29% 的顯著進步。
2. 更低的成本但更高的效率
為了讓開發者在性能與成本之間取得最佳平衡,Opus 4.5 引入了一個全新的 effort(努力程度)參數。開發者可以根據任務需求,選擇 high、medium 或 low 模式,動態調整模型的反應速度與能力。
- 在
medium模式下,Opus 4.5 在 SWE-bench Verified 上的表現與 Sonnet 4.5 的最高分相當,但輸出 token 卻驚人地減少了 76%。 - 即便在追求極致性能的
high模式下,其表現超越 Sonnet 4.5,同時 token 使用量仍能減少 48%。
Claude Opus 4.5 給人一種充滿活力的感覺,而不是過度思考。 -早期使用者
3. 超越基準測試的「創造性」問題解決能力
Opus 4.5 的推理能力不僅體現在解決已知問題,更在於其發現意想不到解決方案的「創造力」。在 τ2-bench 基準測試中的一個航空公司客服情境中,測試預期模型會根據政策,拒絕修改乘客更改經濟艙航班的需求;然而,Opus 4.5 並未直接拒絕,而是繞過了基礎經濟艙無法更改的限制,提出先改航等,再改航班的方式完美解決了客戶問題。這個例子生動地展示了模型真正的「創造性問題解決能力」。
全面升級的產品生態系
伴隨 Opus 4.5 的發布,Anthropic 也對其周邊產品進行了全面升級,打造了更無縫的 AI 工作流程:
- Claude Code 更新: 現在,Claude Code 也支援桌面應用程式,並新增了「計畫模式(Plan Mode)」。在該模式下,模型會先產生一份可由使用者編輯的計畫檔案(plan.md),確認後再執行,賦予使用者更高的控制權。
- 應用程式與擴充功能: Claude for Chrome 現在開放給所有 Max 用戶使用。在應用程式中,Claude 會根據需要自動總結先前的上下文。同時,Claude for Excel 的測試版也擴大至所有 Max、Team 和 Enterprise 用戶。
- 開發者平台更新: 開發者平台新增了
zoom工具,允許模型請求螢幕的特定放大區域進行檢查,提升了對視覺資訊的精細操作能力。此外,平台現在會預設保留先前對話的思考區塊(Thinking blocks),即模型在生成回答時的內部推理鏈或『思路』,這對需要長時間上下文的代理任務連續性至關重要。
Opus 4.5 為 AI 導入企業開啟了新篇章
Claude Opus 4.5 的問世,不僅在編碼和推理能力上設立了新的業界標竿,更透過革命性的價格調整和效率提升,大幅降低了企業導入頂級 AI 技術的門檻。effort 參數等功能的引入,也標誌著 AI 原始能力將被更精細的控制所增強,使企業能夠針對性能、成本和延遲的複雜矩陣進行優化。
在模型迭代速度如此之快的時代,每個模型已逐漸開產出自己擅長的能力,但對企業而言「如何建立一個能快速應用最新模型的架構」顯得格外重要,這也正是像 EgentHub 這類專業 AI Agent 服務商的價值所在, EgentHub 是台灣 AI 企業應用首選,透過提供一個支援多模型、可靈活配置的企業級 AI Agent 管理平台,幫助企業在這場瞬息萬變的 AI 競賽中,始終能運用最頂尖的技術,保持領先地位。



















