Anthropic 發佈 Claude Opus 4.1 :專為「寫程式」而生的 AI 模型?

更新於 發佈於 閱讀時間約 5 分鐘

身為 OpenAI 主要競爭對手之一的 Anthropic,在 2025 年 8 月 6 日也發布了他們最新的模型更新:Claude Opus 4.1。這次的 4.1 版升級的重點鎖定在對專業人士重要的領域:程式碼撰寫、AI 代理人任務(Agentic Tasks)和深度推理

raw-image

Claude Opus 4.1

Claude Opus 4.1 懶人包

  • Claude Opus 4.1 專注於提升程式碼處理能力、AI 代理人執行複雜任務的能力,以及更高層次的推理分析。
  • 價格與 Opus 4 完全相同。對於既有付費用戶來說,等於是「免費升級」。
  • 付費的 Claude Pro/Max/Team 用戶可以直接使用。開發者則可以透過 Anthropic 的 API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台進行串接。

專門打造的程式碼能力

寫出具有單一函式的程式碼已經不是新聞,處理大型、多檔案的複雜專案,才是對 AI 程式能力的真正考驗,Opus 4.1 在這方面展現顯著進步:

  • 指標性測試結果提升:在業界公認的軟體工程評測 SWE-bench Verified 中,Opus 4.1 的分數從 72.5% 提升到 74.5%。這個模擬的是解決 GitHub 上真實的 issue,分數的提升代表它能更可靠地修復 bug 和完成功能開發。
  • 合作夥伴的肯定:GitHub 指出,Opus 4.1 在「多檔案程式碼重構」方面有非常顯著的進步。日本電商巨頭樂天集團 (Rakuten Group) 則發現,Opus 4.1 非常擅長在龐大的程式碼庫中「精準定位問題並修正」,而不會引入新的 bug 或做多餘的修改。這對於日常的除錯工作來說,是極其寶貴的能力。
raw-image

Claude Opus 4.1

更聰明的 AI 代理人與學術研究

AI 代理人(Agent)是能自主規劃並執行多步驟任務的 AI 系統:

  • 代理人任務:Opus 4.1 在用於評估代理人任務的 TAU-bench 評測中表現出色,更適合執行如「自動化多通路行銷活動」或「企業內部運營流程」等自主工作流。
  • 學術級推理:在考驗研究生水準推理能力的 GPQA Diamond 評測上,分數從 79.6% 微幅提升至 80.9%。這代表它在處理和整合複雜資訊(如專利資料庫、學術論文)的能力上有所增強。

安全性的再升級

Anthropic 一向以「安全」為其核心理念。Opus 4.1 在這方面也進行了強化,其 AI 安全等級被歸類為 ASL-3。根據報告,對於違反政策的請求,其拒絕率從 97.27% 提高到 98.76%,同時保持了極低的「過度拒絕」率(僅 0.08%),確保在安全與實用性之間取得平衡。

TN科技筆記的觀點

  • 從「跑分」到「解決問題」:相較於在通用測試上追求極致分數,Opus 4.1 更專注於解決開發者在「真實世界」中遇到的痛點,例如重構舊程式碼、精準除錯。這種價值導向的開發策略,更貼近市場的實際需求。
  • 清晰的市場定位:如果說 OpenAI 近期發布的 gpt-oss 是面向廣大開發者和愛好者的「開放工具箱」,那 Claude Opus 4.1 就是為企業和專業人士打造的「高精度儀器」。
  • 上下文視窗的競爭:Opus 4.1 支援 200K token 的上下文視窗,雖然已經非常龐大,但相較於競品如 Google Gemini 2.5 Pro 提供的 100 萬 token,仍有差距。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
33會員
134內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/08/06
2025 年 8 月 5 日,OpenAI 終於推出 gpt-oss-120b 和 gpt-oss-20b 兩款「開放權重 (Open-Weight)」模型。這是自 2019 年的 GPT-2 以來,OpenAI 首次重返開源領域。更關鍵的是,這次的 gpt-oss 模型不僅性能強悍,甚至能在高階
Thumbnail
2025/08/06
2025 年 8 月 5 日,OpenAI 終於推出 gpt-oss-120b 和 gpt-oss-20b 兩款「開放權重 (Open-Weight)」模型。這是自 2019 年的 GPT-2 以來,OpenAI 首次重返開源領域。更關鍵的是,這次的 gpt-oss 模型不僅性能強悍,甚至能在高階
Thumbnail
2025/08/03
Google 在 2025 年 8 月 1 日正式推出的 Gemini 2.5 Deep Think,讓 AI 能夠像人類專家一樣,花費「思考時間」來處理極度複雜的難題。對於所有希望利用 AI 解決真正棘手問題的人來說,這是一個不能錯過的發展,快跟TN科技筆記一起來看看吧!
Thumbnail
2025/08/03
Google 在 2025 年 8 月 1 日正式推出的 Gemini 2.5 Deep Think,讓 AI 能夠像人類專家一樣,花費「思考時間」來處理極度複雜的難題。對於所有希望利用 AI 解決真正棘手問題的人來說,這是一個不能錯過的發展,快跟TN科技筆記一起來看看吧!
Thumbnail
2025/07/31
2025 年 7 月29日、30日,Google 和 OpenAI 相繼推出了兩項重量級功能:Google 的 NotebookLM「影片導覽」和 OpenAI 的 ChatGPT「學習模式」。這些工具不僅讓複雜知識變得更易懂,還能根據你的需求量身打造學習體驗,快跟TN科技筆記一起來看看吧!
Thumbnail
2025/07/31
2025 年 7 月29日、30日,Google 和 OpenAI 相繼推出了兩項重量級功能:Google 的 NotebookLM「影片導覽」和 OpenAI 的 ChatGPT「學習模式」。這些工具不僅讓複雜知識變得更易懂,還能根據你的需求量身打造學習體驗,快跟TN科技筆記一起來看看吧!
Thumbnail
看更多
你可能也想看
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News