Claude 4.5 Sonnet ：Anthropic 在 AI 編碼與 Agent 賽道的關鍵一步

2025/09/30 更新2025/09/30 發佈閱讀 7 分鐘

在人工智慧模型推陳出新的浪潮中，我們很容易對各種版本的更新感到麻木。然而，Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet，值得我們停下腳步探究。

Anthropic 這次並沒有試圖與 GPT-5 等通用模型正面對決，而是選擇將資源集中在兩個關鍵領域：高階的程式編寫能力與能長時間自主運作的 AI 代理人（Agentic workflows）。這次更新的重點不在於創造一個「什麼都會」的模型，而是要打造一個在特定專業領域「做得最好」的工具。

Introducing Claude Sonnet 4.5

Claude 4.5 Sonnet 主要亮點

為「寫程式」而生：稱霸 SWE-Bench 的實力

這次更新最引人注目的，莫過於 Claude 4.5 Sonnet 在程式編寫評測上的優異表現。其中，它在「SWE-Bench Verified」項目上獲得了 77.2% 的高分，超越了 GPT-5 的 72.8%。

SWE-Bench不同於傳統的程式解題測驗，SWE-Bench 是一個模擬真實軟體開發情境的評測基準。它要求 AI 模型直接處理從 GitHub 上收集的真實軟體問題（issue），並自動生成解決問題的程式碼補丁（patch）。這不僅考驗 AI 的程式生成能力，更挑戰它理解複雜現有程式庫、追蹤問題根源、並在多個檔案之間進行協調修改的綜合能力。

換句話說，SWE-Bench 測試的是 AI 能否像一位真正的人類工程師那樣去解決問題。Claude 4.5 Sonnet 在這項評測上的領先，意味著它在處理現實世界中那些混亂且充滿挑戰的軟體維護任務上，具備了更可靠的能力。這對於提升開發效率、自動化程式修復等應用場景，有非常實際的價值。

超長續航力：能專注 30 小時的 AI 代理人 (Agent)

如果說程式編寫能力的提升是「點」的突破，那麼 AI 代理能力的強化則是「線」的延伸。Claude 4.5 Sonnet 的一大賣點是其能夠在長達 30 小時的複雜任務中，維持焦點和上下文記憶，不會「分心」或「遺忘」最初的目標。

這項能力解鎖了許多過去難以實現的應用。想像一下，你可以部署一個 AI 代理來執行以下任務：

金融市場監控：讓 AI 代理持續追蹤數十個市場指標、分析新聞情緒，並在發現異常交易模式時即時提出警示，整個過程持續超過一天。
網路安全防禦：部署一個 AI 代理全天候監控公司網路流量，分析潛在的入侵行為，並根據預設的規則自動執行初步的防禦措施。
供應鏈管理：讓一個 AI 代理負責追蹤橫跨全球的貨運狀態，處理突發的延遲事件，並自動與相關方溝通協調，確保供應鏈順暢。

這些任務的共同點是「長時間」與「多步驟」。過去的模型在處理這類問題時，常常因為上下文視窗的限制或注意力衰減，導致任務執行到一半就偏離軌道。Claude 4.5 Sonnet 的長效專注力，使其成為建構可靠企業級自動化系統的理想選擇。

Claude 4.5 vs. GPT-5：一場精準打擊與全面覆蓋的對決

將 Claude 4.5 Sonnet 與市場上的另一個頂級模型 GPT-5 進行比較，可以清楚看見兩家公司不同的發展策略。

評測表現：在多個與程式編寫、終端機操作、作業系統互動相關的評測中，Claude 4.5 Sonnet 均取得領先。然而這並不代表 GPT-5 就比較弱，它在更廣泛的通用知識、創意生成和設計理解方面，依然保有強大的實力。
功能強項：Claude 4.5 Sonnet 的優勢在於其專業化的深度。它在工具使用（高達 98% 的準確率）和多步驟任務的可靠性上表現突出，特別適合開發者和需要高度穩定性的企業應用。GPT-5 的強項則在於其廣泛的通用性與靈活性，它在除錯、遵循複雜設計指令等方面更受一些用戶青睞。
定價與效益性：Claude 4.5 Sonnet 的 API 定價與前代 Sonnet 4 持平，為每百萬輸入 tokens 3 美元。GPT-5 的定價則相對更具成本效益，為每百萬輸入 tokens 1.25 美元。價格上的差異也反映了兩者的市場定位：Claude 4.5 Sonnet 瞄準對性能和可靠性要求極高的專業及企業市場，而 GPT-5 則兼顧了大規模、高流量的通用應用場景。

總言之，Anthropic 目前選擇在 AI 專業應用的賽道上深耕，而 OpenAI 則繼續鞏固其在通用 AI 領域的領導地位。

TN科技筆記的觀點

Anthropic 這次的策略非常清晰，不在通用能力上與 GPT-5 硬碰硬，而是選擇在「程式編寫」與「AI 代理」這兩個高價值專業領域做到極致。Claude 4.5 就像一位專注於長距離、高耐力的馬拉松選手，而 GPT-5 則更像一位各項能力均衡的十項全能冠軍。這種分化對整個產業是健康的，它為用戶提供了更豐富、更貼合特定需求的選擇。

GPT-5 跟 claude 4.5 的相繼推出之後，接下來是不是也可以開始期待 Google 的 gemini 3 推出，又能夠帶來那些令人驚訝的進步？Gemini 3 不能只是「更好」，在 Claude 4.5 和 GPT-5 已經分別佔據「專精」與「通用」之後，Google Gemini 3 面臨的挑戰可能不再只是在評測分數上實現微小的超越。

個人認為，Google 暫時最可能令人驚訝的升級在於生態系的原生整合。想像一個能完全無縫串連你 Gmail、Google Drive、Google 日曆和 Google Cloud 等等所有 Google 服務的 Gemini 3。它不只是一個 API，而是能化身為真正「個人助理」的存在，能幫你自動整理會議記錄、追蹤專案進度、並在雲端環境中自動部署應用。這種深度的整合能力，是 OpenAI 和 Anthropic 短期內難以企及的。