在人工智慧模型推陳出新的浪潮中,我們很容易對各種版本的更新感到麻木。然而,Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet,值得我們停下腳步探究。
Anthropic 這次並沒有試圖與 GPT-5 等通用模型正面對決,而是選擇將資源集中在兩個關鍵領域:高階的程式編寫能力與能長時間自主運作的 AI 代理人(Agentic workflows)。這次更新的重點不在於創造一個「什麼都會」的模型,而是要打造一個在特定專業領域「做得最好」的工具。
Introducing Claude Sonnet 4.5
Claude 4.5 Sonnet 主要亮點
為「寫程式」而生:稱霸 SWE-Bench 的實力
這次更新最引人注目的,莫過於 Claude 4.5 Sonnet 在程式編寫評測上的優異表現。其中,它在「SWE-Bench Verified」項目上獲得了 77.2% 的高分,超越了 GPT-5 的 72.8%。
SWE-Bench不同於傳統的程式解題測驗,SWE-Bench 是一個模擬真實軟體開發情境的評測基準。它要求 AI 模型直接處理從 GitHub 上收集的真實軟體問題(issue),並自動生成解決問題的程式碼補丁(patch)。這不僅考驗 AI 的程式生成能力,更挑戰它理解複雜現有程式庫、追蹤問題根源、並在多個檔案之間進行協調修改的綜合能力。
換句話說,SWE-Bench 測試的是 AI 能否像一位真正的人類工程師那樣去解決問題。Claude 4.5 Sonnet 在這項評測上的領先,意味著它在處理現實世界中那些混亂且充滿挑戰的軟體維護任務上,具備了更可靠的能力。這對於提升開發效率、自動化程式修復等應用場景,有非常實際的價值。
超長續航力:能專注 30 小時的 AI 代理人 (Agent)
如果說程式編寫能力的提升是「點」的突破,那麼 AI 代理能力的強化則是「線」的延伸。Claude 4.5 Sonnet 的一大賣點是其能夠在長達 30 小時的複雜任務中,維持焦點和上下文記憶,不會「分心」或「遺忘」最初的目標。
這項能力解鎖了許多過去難以實現的應用。想像一下,你可以部署一個 AI 代理來執行以下任務:
- 金融市場監控:讓 AI 代理持續追蹤數十個市場指標、分析新聞情緒,並在發現異常交易模式時即時提出警示,整個過程持續超過一天。
- 網路安全防禦:部署一個 AI 代理全天候監控公司網路流量,分析潛在的入侵行為,並根據預設的規則自動執行初步的防禦措施。
- 供應鏈管理:讓一個 AI 代理負責追蹤橫跨全球的貨運狀態,處理突發的延遲事件,並自動與相關方溝通協調,確保供應鏈順暢。
這些任務的共同點是「長時間」與「多步驟」。過去的模型在處理這類問題時,常常因為上下文視窗的限制或注意力衰減,導致任務執行到一半就偏離軌道。Claude 4.5 Sonnet 的長效專注力,使其成為建構可靠企業級自動化系統的理想選擇。
Claude 4.5 vs. GPT-5:一場精準打擊與全面覆蓋的對決
將 Claude 4.5 Sonnet 與市場上的另一個頂級模型 GPT-5 進行比較,可以清楚看見兩家公司不同的發展策略。
- 評測表現:在多個與程式編寫、終端機操作、作業系統互動相關的評測中,Claude 4.5 Sonnet 均取得領先。然而這並不代表 GPT-5 就比較弱,它在更廣泛的通用知識、創意生成和設計理解方面,依然保有強大的實力。
- 功能強項:Claude 4.5 Sonnet 的優勢在於其專業化的深度。它在工具使用(高達 98% 的準確率)和多步驟任務的可靠性上表現突出,特別適合開發者和需要高度穩定性的企業應用。GPT-5 的強項則在於其廣泛的通用性與靈活性,它在除錯、遵循複雜設計指令等方面更受一些用戶青睞。
- 定價與效益性:Claude 4.5 Sonnet 的 API 定價與前代 Sonnet 4 持平,為每百萬輸入 tokens 3 美元。GPT-5 的定價則相對更具成本效益,為每百萬輸入 tokens 1.25 美元。價格上的差異也反映了兩者的市場定位:Claude 4.5 Sonnet 瞄準對性能和可靠性要求極高的專業及企業市場,而 GPT-5 則兼顧了大規模、高流量的通用應用場景。
總言之,Anthropic 目前選擇在 AI 專業應用的賽道上深耕,而 OpenAI 則繼續鞏固其在通用 AI 領域的領導地位。
TN科技筆記的觀點
Anthropic 這次的策略非常清晰,不在通用能力上與 GPT-5 硬碰硬,而是選擇在「程式編寫」與「AI 代理」這兩個高價值專業領域做到極致。Claude 4.5 就像一位專注於長距離、高耐力的馬拉松選手,而 GPT-5 則更像一位各項能力均衡的十項全能冠軍。這種分化對整個產業是健康的,它為用戶提供了更豐富、更貼合特定需求的選擇。
GPT-5 跟 claude 4.5 的相繼推出之後,接下來是不是也可以開始期待 Google 的 gemini 3 推出,又能夠帶來那些令人驚訝的進步?Gemini 3 不能只是「更好」,在 Claude 4.5 和 GPT-5 已經分別佔據「專精」與「通用」之後,Google Gemini 3 面臨的挑戰可能不再只是在評測分數上實現微小的超越。
個人認為,Google 暫時最可能令人驚訝的升級在於生態系的原生整合。想像一個能完全無縫串連你 Gmail、Google Drive、Google 日曆和 Google Cloud 等等所有 Google 服務的 Gemini 3。它不只是一個 API,而是能化身為真正「個人助理」的存在,能幫你自動整理會議記錄、追蹤專案進度、並在雲端環境中自動部署應用。這種深度的整合能力,是 OpenAI 和 Anthropic 短期內難以企及的。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)




















