Claude 4.5 Sonnet :Anthropic 在 AI 編碼與 Agent 賽道的關鍵一步

更新 發佈閱讀 7 分鐘

在人工智慧模型推陳出新的浪潮中,我們很容易對各種版本的更新感到麻木。然而,Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet,值得我們停下腳步探究。

Anthropic 這次並沒有試圖與 GPT-5 等通用模型正面對決,而是選擇將資源集中在兩個關鍵領域:高階的程式編寫能力與能長時間自主運作的 AI 代理人(Agentic workflows)。這次更新的重點不在於創造一個「什麼都會」的模型,而是要打造一個在特定專業領域「做得最好」的工具。

Introducing Claude Sonnet 4.5

raw-image

Claude 4.5 Sonnet 主要亮點

為「寫程式」而生:稱霸 SWE-Bench 的實力

這次更新最引人注目的,莫過於 Claude 4.5 Sonnet 在程式編寫評測上的優異表現。其中,它在「SWE-Bench Verified」項目上獲得了 77.2% 的高分,超越了 GPT-5 的 72.8%。

SWE-Bench不同於傳統的程式解題測驗,SWE-Bench 是一個模擬真實軟體開發情境的評測基準。它要求 AI 模型直接處理從 GitHub 上收集的真實軟體問題(issue),並自動生成解決問題的程式碼補丁(patch)。這不僅考驗 AI 的程式生成能力,更挑戰它理解複雜現有程式庫、追蹤問題根源、並在多個檔案之間進行協調修改的綜合能力。

換句話說,SWE-Bench 測試的是 AI 能否像一位真正的人類工程師那樣去解決問題。Claude 4.5 Sonnet 在這項評測上的領先,意味著它在處理現實世界中那些混亂且充滿挑戰的軟體維護任務上,具備了更可靠的能力。這對於提升開發效率、自動化程式修復等應用場景,有非常實際的價值。

超長續航力:能專注 30 小時的 AI 代理人 (Agent)

如果說程式編寫能力的提升是「點」的突破,那麼 AI 代理能力的強化則是「線」的延伸。Claude 4.5 Sonnet 的一大賣點是其能夠在長達 30 小時的複雜任務中,維持焦點和上下文記憶,不會「分心」或「遺忘」最初的目標。

這項能力解鎖了許多過去難以實現的應用。想像一下,你可以部署一個 AI 代理來執行以下任務:

  • 金融市場監控:讓 AI 代理持續追蹤數十個市場指標、分析新聞情緒,並在發現異常交易模式時即時提出警示,整個過程持續超過一天。
  • 網路安全防禦:部署一個 AI 代理全天候監控公司網路流量,分析潛在的入侵行為,並根據預設的規則自動執行初步的防禦措施。
  • 供應鏈管理:讓一個 AI 代理負責追蹤橫跨全球的貨運狀態,處理突發的延遲事件,並自動與相關方溝通協調,確保供應鏈順暢。

這些任務的共同點是「長時間」與「多步驟」。過去的模型在處理這類問題時,常常因為上下文視窗的限制或注意力衰減,導致任務執行到一半就偏離軌道。Claude 4.5 Sonnet 的長效專注力,使其成為建構可靠企業級自動化系統的理想選擇。

Claude 4.5 vs. GPT-5:一場精準打擊與全面覆蓋的對決

將 Claude 4.5 Sonnet 與市場上的另一個頂級模型 GPT-5 進行比較,可以清楚看見兩家公司不同的發展策略。

  • 評測表現:在多個與程式編寫、終端機操作、作業系統互動相關的評測中,Claude 4.5 Sonnet 均取得領先。然而這並不代表 GPT-5 就比較弱,它在更廣泛的通用知識、創意生成和設計理解方面,依然保有強大的實力。
  • 功能強項:Claude 4.5 Sonnet 的優勢在於其專業化的深度。它在工具使用(高達 98% 的準確率)和多步驟任務的可靠性上表現突出,特別適合開發者和需要高度穩定性的企業應用。GPT-5 的強項則在於其廣泛的通用性與靈活性,它在除錯、遵循複雜設計指令等方面更受一些用戶青睞。
  • 定價與效益性:Claude 4.5 Sonnet 的 API 定價與前代 Sonnet 4 持平,為每百萬輸入 tokens 3 美元。GPT-5 的定價則相對更具成本效益,為每百萬輸入 tokens 1.25 美元。價格上的差異也反映了兩者的市場定位:Claude 4.5 Sonnet 瞄準對性能和可靠性要求極高的專業及企業市場,而 GPT-5 則兼顧了大規模、高流量的通用應用場景。

總言之,Anthropic 目前選擇在 AI 專業應用的賽道上深耕,而 OpenAI 則繼續鞏固其在通用 AI 領域的領導地位。

TN科技筆記的觀點

Anthropic 這次的策略非常清晰,不在通用能力上與 GPT-5 硬碰硬,而是選擇在「程式編寫」與「AI 代理」這兩個高價值專業領域做到極致。Claude 4.5 就像一位專注於長距離、高耐力的馬拉松選手,而 GPT-5 則更像一位各項能力均衡的十項全能冠軍。這種分化對整個產業是健康的,它為用戶提供了更豐富、更貼合特定需求的選擇。

GPT-5 跟 claude 4.5 的相繼推出之後,接下來是不是也可以開始期待 Google 的 gemini 3 推出,又能夠帶來那些令人驚訝的進步?Gemini 3 不能只是「更好」,在 Claude 4.5 和 GPT-5 已經分別佔據「專精」與「通用」之後,Google Gemini 3 面臨的挑戰可能不再只是在評測分數上實現微小的超越。

個人認為,Google 暫時最可能令人驚訝的升級在於生態系的原生整合。想像一個能完全無縫串連你 Gmail、Google Drive、Google 日曆和 Google Cloud 等等所有 Google 服務的 Gemini 3。它不只是一個 API,而是能化身為真正「個人助理」的存在,能幫你自動整理會議記錄、追蹤專案進度、並在雲端環境中自動部署應用。這種深度的整合能力,是 OpenAI 和 Anthropic 短期內難以企及的。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
51會員
171內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
看更多
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
通用型AI還沒那麼快出現 所以說人類的工作要全面被取代 目前不會發生 但如果是"部分"的專精工作 可以被模組化 高重複性 可被預測 與其說取代人類工作 不如說 AI可以替代部分"流程" 如果有專屬於法律條文聊天機器人 或是 專屬於公司內部規章的聊天機器人 遇到問題 或是不確定的流程 直接詢
Thumbnail
通用型AI還沒那麼快出現 所以說人類的工作要全面被取代 目前不會發生 但如果是"部分"的專精工作 可以被模組化 高重複性 可被預測 與其說取代人類工作 不如說 AI可以替代部分"流程" 如果有專屬於法律條文聊天機器人 或是 專屬於公司內部規章的聊天機器人 遇到問題 或是不確定的流程 直接詢
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
這篇文章探討了人工智能對未來的影響,提到了人工智能不斷進步的速度,以及預測了未來幾年人工智能的發展。同時也提到了人工智能對人類的影響,包括了代替工程師寫CODE以及瞭解和療癒人類情緒。
Thumbnail
這篇文章探討了人工智能對未來的影響,提到了人工智能不斷進步的速度,以及預測了未來幾年人工智能的發展。同時也提到了人工智能對人類的影響,包括了代替工程師寫CODE以及瞭解和療癒人類情緒。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News