2025年2月24日,Anthropic推出了他們迄今最先進的模型——Claude 3.7 Sonnet,以及一款專為開發者設計的命令列工具Claude Code。
Claude 3.7 Sonnet:混合推理的先驅
Claude 3.7 Sonnet被稱為一款「混合推理模型」,這意味著它能同時滿足快速回應與深入分析的需求。想像一下,你既能在幾秒內獲得一個簡潔的答案,又能讓AI花時間逐步拆解一個複雜的問題——這正是Claude 3.7 Sonnet的獨特之處。這種雙重能力讓它有別於其他競爭對手,例如OpenAI的o1(專注於推理)與GPT-4o(通用型)分離策略,或是DeepSeek的R1主打成本效益的推理模式。
在性能數據上,Claude 3.7 Sonnet展現了令人矚目的實力。特別是在程式設計領域,它在SWE-Bench Verified(一個模擬真實軟體開發挑戰的基準測試)中獲得了62.3%的得分,遠超OpenAI的o3-mini(49.3%)。在TAU-Bench測試中,這項測試衡量AI代理在複雜零碎任務中的表現,Claude 3.7 Sonnet拿下81.2%,擊敗OpenAI的o1(73.5%)。這代表Claude 3.7 Sonnet在實用的任務和工具使用場景中正逐漸領先。
不僅如此,Claude 3.7 Sonnet還在指令遵循和前端網頁開發上表現出色,並生成幾乎無誤的生產級程式碼。相較之下,雖然xAI的Grok 3尚未公開完整基準數據,但Claude 3.7 Sonnet在程式設計和實用性上的專注可能使其在特定應用場景中更勝一籌。
另一個亮點是Claude 3.7 Sonnet的輸出最高可達128,000個token,這是Claude 3.5 Sonnet的15倍。這表示Claude 3.7 Sonnet可生成極其長篇且細節豐富的回應,非常適合需要大量內容的任務。開發者還能透過API微調它的「思考預算」,在回應速度與細節間找到平衡,這對於商業應用來說無疑是一大優勢。當然,這樣的性能是有代價的:每百萬輸入token定價3美元,輸出token則為15美元,雖然比DeepSeek的R1或OpenAI的o3-mini貴,但其展現的多功能性似乎足以證明這筆花費的價值。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!