OpenAI 發布 GPT-5.2 :不只是更聰明,更是專業工作者的超級 AI 夥伴

更新 發佈閱讀 10 分鐘

2025 年 12 月 11 日,OpenAI 看到了 Google Gemini 的風潮席捲而來,隨後正式推出了他們最新的旗艦模型:GPT-5.2。這次的 GPT-5.2 系列,從釋出的資料來看,不再只專注於傳統的聊天問答或創意寫作,而是將矛頭精準地指向了「專業知識工作」與「經濟價值創造」。

Introducing GPT-5.2

raw-image

GPT-5.2 的關鍵躍升

不僅是助理,更是專家

過去,我們讓 AI 幫忙潤飾郵件、發想點子,但很難將一份完整的專業工作交給它。GPT-5.2 試圖打破這個天花板。

OpenAI 推出了一個名為 GDPval 的測驗標準,它涵蓋了美國 GDP 貢獻最高的 9 大行業中的 44 種職業,任務內容都是非常真實的工作產出,例如製作銷售簡報、會計試算表、或工廠製造圖。在這項測驗中,GPT-5.2 Thinking 的表現令人矚目,不僅在 70.9% 的任務中達到或超越了人類專家的水準,其產出速度更是人類的 11 倍以上,成本卻不到 1%。這意味著,在人類的監督下,AI 處理一份初版財務模型或市場分析報告的效率將有數十倍的提升。

具體來說,無論是建立包含多個部門的人力資源規劃模型,或是為公司製作標準的三大財務報表,GPT-5.2 的表現都比前代模型更精確、格式更專業。

raw-image

從前端到後端,為軟體工程師打造的智慧夥伴

對於軟體工程師而言,GPT-5.2 同樣帶來了實質性的幫助。它在更貼近企業實際開發環境的軟體工程測驗 SWE-Bench Pro 上,創下了 55.6% 的新紀錄。這代表開發者可以更放心地交給 GPT-5.2 處理更複雜的任務,例如:

  • 除錯(Debugging):更精準地找出正式環境中的程式碼錯誤。
  • 功能開發:根據需求實現新的軟體功能。
  • 程式碼重構(Refactoring):對大型、複雜的程式碼庫進行結構優化。
raw-image

此外,早期測試者特別提到,GPT-5.2 在前端開發,尤其是處理複雜或非傳統的 UI 設計(例如 3D 元素)時,能力有顯著增強。從 OpenAI 展示的單一提示詞生成「海浪模擬」互動網頁的範例來看,其程式碼生成能力確實已達到新的境界。

更少的錯誤與更強的記憶力

AI 的「幻覺」(Hallucination)問題,一直是限制其在嚴肅場景應用的主要障礙。GPT-5.2 在這方面取得了進步。根據 OpenAI 內部對 ChatGPT 查詢的測試,GPT-5.2 Thinking 產生錯誤回覆的頻率,相比前代降低了 30%。

raw-image

同時,模型的「記憶力」也大幅提升。GPT-5.2 在長文脈絡理解的測驗(OpenAI MRCRv2)中刷新了自己的紀錄,能夠在長達25萬個 token 的內容中,精準地整合、查找和引用資訊。

看得懂圖表、看得懂介面,視覺理解能力的升級

GPT-5.2 的多模態能力也變得更強大,特別是在視覺理解方面。它在圖表推理(CharXiv Reasoning)和軟體介面理解(ScreenSpot-Pro)這兩項任務上的錯誤率幾乎減半。

這代表可以直接把充滿數據的儀表板截圖、產品設計稿、技術架構圖或視覺化的報告丟給它,並要求它進行解讀、分析或摘要。模型對圖像中物件的空間佈局理解也更好,例如在一張複雜的主機板照片中,GPT-5.2 能比前代更準確地框出各個元件的位置。

raw-image

更可靠的工具呼叫與代理(Agent)能力

AI 要能處理複雜工作,就必須學會使用外部工具(例如查詢資料庫、發送郵件、執行程式碼)。GPT-5.2 在這方面的可靠性大幅提升,於 Tau2-bench Telecom 測驗中達到 98.7% 的準確率。

這讓「AI 代理」(AI Agent)的應用變得更加實際。一個複雜的客服請求,可能需要查詢航班狀態、修改訂位、申請特殊協助、並處理賠償。GPT-5.2 能更順暢地協調這一連串需要呼叫不同工具的任務,一次性給出完整的解決方案,而不會在中間步驟卡住。

在頂尖數學與科學問題上的驚人表現

最後,GPT-5.2 在高階科學與數學領域的表現,預示了 AI 加速人類研究進程的潛力。它在研究生級別的科學問答(GPQA Diamond)和專家級數學解題(FrontierMath)測驗中都創下新高。甚至在一項統計學習理論的研究中,GPT-5.2 Pro 提出的一個證明思路,在經過人類專家驗證後被採納,展現了 AI 作為頂尖研究者「靈感夥伴」的巨大潛力。

更上一層樓的抽象推理能力

除了特定領域的專業能力,GPT-5.2 在衡量通用推理能力的 ARC-AGI 基準測試上也取得了重大突破。

  • 在 ARC-AGI-1 測試中,GPT-5.2 Pro 成為第一個突破 90% 門檻的模型,更驚人的是,達到此性能水準的成本,相較於去年的模型大幅降低了約 390 倍。
  • 而在難度更高的 ARC-AGI-2 中,GPT-5.2 Thinking 取得了 52.9% 的分數,創下「思維鏈」模型的最新紀錄,而 GPT-5.2 Pro 更是達到了 54.2% 的高分。

這些數據清楚地表明,GPT-5.2 在多步驟推理、量化準確性以及解決複雜技術問題的可靠性上,都有了更強的表現,能夠更好地應對新穎、抽象的問題。

GPT-5.2 與 Gemini 3 Pro 定價大對決

核心定價比較

  • GPT-5.2 (Thinking/chat-latest)
    • 輸入:每百萬 token $1.75 美元
    • 輸出:每百萬 token $14.00 美元
  • Gemini 3 Pro
    • 輸入:每百萬 token $2.00 美元(短文本)/ $4.00 美元(長文本 >200k)
    • 輸出:每百萬 token $12.00 美元(短文本)/ $18.00 美元(長文本 >200k)

GPT-5.2 的「輸入」更便宜,而 Gemini 3 Pro 在短文本的「輸出」上更有優勢

如何根據工作需求挑選?

大量閱讀與分析 (RAG、文檔摘要): 選 GPT-5.2 。如果您的工作涉及將大量的 PDF、法律文件或程式碼庫丟給 AI 進行分析,GPT-5.2 是絕對的贏家。其輸入價格($1.75)不僅比 Gemini 3 Pro 的基礎價格($2.00)便宜,更重要的是,當您的文本長度超過 20 萬 token(約 15 萬字)時,Gemini 的價格會翻倍至 $4.00,而 GPT-5.2 保持不變。在長文檔處理上,GPT-5.2 的成本不到對手的一半。

內容創作與程式碼生成 (重輸出) : 選 Gemini 3 Pro (短文本)。 如果您的需求是「給一個短指令,生成一篇長文章或完整程式碼」,Gemini 3 Pro 較具吸引力。在上下文不長的情況下,其輸出成本($12.00)低於 GPT-5.2($14.00)。對於部落格寫作、行銷文案生成等「少輸入、多輸出」的任務,Gemini 3 Pro 性價比更高。

極致推理與複雜任務 : 留意 GPT-5.2 Pro 的高昂代價 針對極端複雜任務的 GPT-5.2 Pro,其定價高達輸入 $21 / 輸出 $168。除非需要處理數學競賽等級的難題或極高精度的科研推導,否則日常使用建議避開此版本,以免帳單爆炸。相比之下,Gemini 3 Pro 的定位更像是「高階通用」,在價格與性能間取得較好的平衡。

TN科技筆記的觀點

個人認為有趣的是 OpenAI 本次模型更新的重點也從「通用智慧的突破」轉向「創造可衡量的經濟價值」。這次 OpenAI 特地介紹 GDPval 這個新的測驗方式,強調模型在會計、銷售、管理等 44 種真實職業上的表現。看得出來 OpenAI 近期或許因為市場針對其巨額投資的疑問開始回應,重點是「落地應用」和「工作流程整合」。模型不再只是回答問題的工具,而是能夠直接產出試算表、簡報、程式碼這些「工作成品」的生產力平台。這也讓 AI Agent 的概念從一個酷炫的 DEMO,朝向真正能在企業中部署的實用工具邁進了一大步。

從本次 GPT-5.2 的能力而言,目前許多模型的能力開始進入許多初階到中階知識工作者的核心領域。它不僅能完成任務,甚至在格式、結構上都做得非常專業。這勢必會改變企業的人才需求,未來,那些重複性高、依賴模板的「流程型」知識工作,價值將會快速降低。工作者需要轉向更具備策略性、創造性、同理心和批判性思維的角色並善用這些 AI 模型,或許才能在這個 AI 時代的洪流中站穩腳步。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
59會員
195內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/12/11
NVIDIA 推出 CUDA Tile,這是一場 GPU 編程的革命。本文將解析其核心概念、與傳統 SIMT 的差異,以及 cuTile 如何讓 Python 開發者輕鬆駕馭 Tensor Core 的強大效能。
Thumbnail
2025/12/11
NVIDIA 推出 CUDA Tile,這是一場 GPU 編程的革命。本文將解析其核心概念、與傳統 SIMT 的差異,以及 cuTile 如何讓 Python 開發者輕鬆駕馭 Tensor Core 的強大效能。
Thumbnail
2025/12/09
NVIDIA 執行長黃仁勳在 CSIS 智庫的對談中,提出了「AI 產業五層蛋糕」框架,逐層解析中美在能源、晶片、基礎設施、模型與應用上的優劣勢,並為美國的 AI 戰略提出三大建言。TN科技筆記為您深度剖析這場關鍵對談。
2025/12/09
NVIDIA 執行長黃仁勳在 CSIS 智庫的對談中,提出了「AI 產業五層蛋糕」框架,逐層解析中美在能源、晶片、基礎設施、模型與應用上的優劣勢,並為美國的 AI 戰略提出三大建言。TN科技筆記為您深度剖析這場關鍵對談。
2025/12/04
法國 AI 公司 Mistral AI 推出最新旗艦模型 Mistral Large 3。本文深入分析其獨特的專家混合 (MoE) 架構、多模態能力,以及開源策略將如何衝擊現有 AI 市場格局。
Thumbnail
2025/12/04
法國 AI 公司 Mistral AI 推出最新旗艦模型 Mistral Large 3。本文深入分析其獨特的專家混合 (MoE) 架構、多模態能力,以及開源策略將如何衝擊現有 AI 市場格局。
Thumbnail
看更多
你可能也想看
Thumbnail
身為一個喜歡閱讀的人,讀書、借書、買書、送書、推書(推廣閱讀)我都做過。 大家常用的社群平台,雞蛋哥幾乎都試過在上面分享讀書心得,做過幾次錄說書影片,也曾上過廣播節目分享書籍,近期也開始嘗試錄製說書音檔,希望能讓更多的人,對閱讀開始產生興趣。 我也追蹤一些推廣閱讀的網紅、閱讀帳(會在社群固定
Thumbnail
身為一個喜歡閱讀的人,讀書、借書、買書、送書、推書(推廣閱讀)我都做過。 大家常用的社群平台,雞蛋哥幾乎都試過在上面分享讀書心得,做過幾次錄說書影片,也曾上過廣播節目分享書籍,近期也開始嘗試錄製說書音檔,希望能讓更多的人,對閱讀開始產生興趣。 我也追蹤一些推廣閱讀的網紅、閱讀帳(會在社群固定
Thumbnail
蝦皮分潤計畫的註冊流程超簡單、超方便! 想成為推廣達人,一起把興趣變成收入嗎? 【蝦皮 12.12 狂歡生日慶】 📌 全站$99起免運 📌 刷卡回饋12%起 📌 滿千現折$200 📌 品牌熱銷6折起
Thumbnail
蝦皮分潤計畫的註冊流程超簡單、超方便! 想成為推廣達人,一起把興趣變成收入嗎? 【蝦皮 12.12 狂歡生日慶】 📌 全站$99起免運 📌 刷卡回饋12%起 📌 滿千現折$200 📌 品牌熱銷6折起
Thumbnail
2025 年 11 月,人工智慧發展史迎來了最戲劇性的一個月。Google DeepMind 與 OpenAI 幾乎同時亮出了底牌——Gemini 3 與 GPT-5.1 1。 這不僅僅是版本的更新,更是兩條截然不同的 AI 進化路線之爭。
Thumbnail
2025 年 11 月,人工智慧發展史迎來了最戲劇性的一個月。Google DeepMind 與 OpenAI 幾乎同時亮出了底牌——Gemini 3 與 GPT-5.1 1。 這不僅僅是版本的更新,更是兩條截然不同的 AI 進化路線之爭。
Thumbnail
文章探討大型語言模型(LLM)的輸出一致性挑戰、OpenAI GPT-5.1的技術升級、AI基礎設施的能源需求增長,以及自主駕駛與硬體創新對市場的影響。
Thumbnail
文章探討大型語言模型(LLM)的輸出一致性挑戰、OpenAI GPT-5.1的技術升級、AI基礎設施的能源需求增長,以及自主駕駛與硬體創新對市場的影響。
Thumbnail
OpenAI 最新報告揭示,AI 已在律師、軟體開發等 44 種職業上達到人類專家水準,速度快 100 倍、成本僅 1%!更驚人的是,最強的不是 GPT,而是對手的 Claude........
Thumbnail
OpenAI 最新報告揭示,AI 已在律師、軟體開發等 44 種職業上達到人類專家水準,速度快 100 倍、成本僅 1%!更驚人的是,最強的不是 GPT,而是對手的 Claude........
Thumbnail
【AI與科技創新最新進展】— 快速掌握應用挑戰與市場變化! 從生成式 AI 的應用挑戰到科技巨頭的產品創新,這些動態正在重塑我們的生活與工作模式。了解最新趨勢,讓你站穩科技浪潮的最前沿!
Thumbnail
【AI與科技創新最新進展】— 快速掌握應用挑戰與市場變化! 從生成式 AI 的應用挑戰到科技巨頭的產品創新,這些動態正在重塑我們的生活與工作模式。了解最新趨勢,讓你站穩科技浪潮的最前沿!
Thumbnail
【科技與市場最新動態】— 快速掌握全球趨勢! 從 Apple 的 AI 佈局到中國電動車出口激增,科技、AI、法律與市場正掀起新一輪的變革。了解這些關鍵資訊,助你在瞬息萬變的環境中搶占先機!
Thumbnail
【科技與市場最新動態】— 快速掌握全球趨勢! 從 Apple 的 AI 佈局到中國電動車出口激增,科技、AI、法律與市場正掀起新一輪的變革。了解這些關鍵資訊,助你在瞬息萬變的環境中搶占先機!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News