AI 已達專家水準？OpenAI 用 GDPval 模型來衡量 AI 經濟價值

2025/10/01 更新2025/10/01 發佈閱讀 6 分鐘

（本文所有數據與聲明均來自 OpenAI 於 2025 年 9 月發布的 GDPval 基準測試報告）

人工智慧的浪潮正以前所未有的速度席捲全球職場。2025 年 9 月 24 日，OpenAI 投下了一枚震撼彈， AI 模型在知識類型中 44 種不同職業領域的表現與能力上，已與人類專家十分接近。這項驚人的結論，源自其最新發布的「GDPval」基準測試，這是一個Open AI 未來將使用來衡量 AI 在真實世界工作任務中經濟價值的全新評估框架。

OpenAI官方GDPval評估基準共列出了44個專業職業，分屬美國GDP主要九大產業，這些職業大致以知識型（非勞務型）工作為主，經過專家審核挑選。

完整44個職業如下：

44個專業職業領域，資料來源：Open AI GDPval 基準測試報告，維那思重製

這不只是一次學術性的演算法競賽，而是 AI 直接挑戰各行各業專業能力的實戰演練。然而，有趣的是，在這場由 OpenAI 主辦的競賽中，拔得頭籌的並非自家的模型。

GDPval 基準測試報告：OpenAI網站連結、GDPval 基準測試報告連結

GDPval 測試揭露了什麼？

Claude Opus 4.1 意外領先

GDPval 框架是 OpenAI 迄今為止衡量 AI 經濟價值最大膽的嘗試。它涵蓋了對美國國內生產總值（GDP）貢獻最大的九大行業，從軟體開發、法律、護理到財務顧問，共計 1,320 項真實的工作任務。

為了確保評估的公正性與真實性，OpenAI 邀請了平均擁有 14 年經驗的行業專家來設計任務，並擔任「裁判」，將 AI 生成的成果與人類專家的作品進行匿名比較。

評估結果出乎許多人意料：

Anthropic 的 Claude Opus 4.1 在與人類專家的比拼中，以高達 47.6% 的「贏或平局率」位居榜首，展現了卓越的綜合能力。
OpenAI 自家的 GPT-5 則以 38.8% 的分數緊隨其後，同樣證明了其強大的專業實力。

頂尖 AI 進步速度驚人且產出品質已接近人類專家

這些數據清晰地表明，現今的頂尖 AI 模型在處理複雜的專業任務時，其產出品質已能達到，甚至在近半數情況下不遜於經驗豐富的人類專家。

更令人矚目的是 AI 的驚人進步速度：OpenAI 指出，2024 年春季發布的 GPT-4o 在此測試中僅獲得 13.7% 的成績，而僅僅一年多後，GPT-5 的表現便提升了近三倍。

GDPval 是未來衡量通用人工智慧目標進展的關鍵方式

OpenAI 研究員，同時也是此份報告的主要作者 Tejal Patwardhan 強調：「我們終於有方法可以衡量我們的模型在真實世界中的表現——不僅僅是在學術測試上——這是我們衡量邁向通用人工智慧（AGI）目標進展的關鍵方式。」

百倍速度、百倍效益：AI 帶來的生產力革命

除了品質上的逼近，AI 在效率上的優勢更是顛覆性的。根據 OpenAI 的報告，完成這些專業任務時，AI 模型比人類專家快上 100 倍，且成本僅為人類專家的百分之一（此處成本主要指 API 的費用與專家所需的時間成本）。

這意味著，過去需要一位律師花費數小時撰寫的法律文件，或是一位財務顧問分析數天的市場報告，現在 AI 可能在幾分鐘內就生成一份高品質的草稿。這不僅僅是效率的提升，而是一場徹底的生產力革命。

身處浪潮之中，我們該如何保持競爭優勢？

面對如此強大的「新同事」，焦慮是難免的。當 AI 能以更低的成本、更快的速度完成我們工作中的核心任務時，我們作為專業人士的價值在哪裡？

答案是：回到個人，深化無法被輕易複製的人類特質。

成為 AI 的「指揮家」，而非「演奏者」：未來的競爭優勢，不在於重複執行 AI 已經擅長的任務，而在於如何巧妙地運用 AI 這個強大的工具。學習如何提出正確的問題、精準地下達指令（Prompt Engineering），以及辨別、整合、優化 AI 的產出，將成為關鍵技能。你需要從一個任務的執行者，轉變為一個工作流程的設計師與指揮家。
深化「人類獨有」的軟技能：GDPval 測試的是可量化的專業任務，但一個完整的職業不僅於此。複雜的策略決策、跨部門的溝通協調、對人性的深刻洞察、建立信任的客戶關係以及真正的同理心，這些是目前 AI 難以企及的領域。在 AI 處理掉大部分的例行性事務後，這些軟技能的價值將會被前所未有地放大。
培養跨領域的整合能力：AI 能在單一領域達到專家級水準，但將不同領域的知識、經驗和洞見融會貫通，進行創造性的解構與重組，依然是人類的強項。法律人懂程式碼、醫師懂數據分析、行銷人懂心理學，這種「π型人才」將能利用 AI 作為槓桿，創造出單一技能專家無法企及的價值。
擁抱終身學習與快速適應：AI 的進化速度是以「月」甚至「週」為單位。過去的「一技之長」可能在短時間內就被 AI 取代。因此，保持開放的心態，持續學習新知識、新工具，並勇於跳出舒適圈去適應新的工作模式，將是未來職場的生存法則。

AI 的崛起並非終點，而是一個全新的起點；它將我們從重複性的勞動中解放出來，迫使我們去思考自身更深層次的價值；與其畏懼被取代，不如思考如何駕馭這股力量，讓自己成為在 AI 時代中，更具創造力、策略性與人性溫度的關鍵角色。

留言

留言分享你的想法！

維那思的異想世界

14會員

108內容數

這裡分享維那思的日常與異想

維那思的異想世界的其他內容

2025/09/30

自駕車的「叛逆」學習？當AI學會看到臨檢「烙跑」，我們該開罰單給誰？

AI學壞了？一輛Waymo自駕車看見警察臨檢，竟當場違規迴轉「烙跑」，讓警察攔下後超傻眼：駕駛座根本沒人！罰單該開給誰？這起荒謬的「躲貓貓」事件，不僅揭開AI可能正在偷偷學習人類駕駛的壞習慣，更凸顯了現行法律的巨大漏洞。當機器人犯法，我們的社會準備好了嗎？點擊深入了解這場科技與法規的奇妙對決。

2025/09/30

自駕車的「叛逆」學習？當AI學會看到臨檢「烙跑」，我們該開罰單給誰？

2025/09/27

人形機器人發展路徑預測：從實驗室走向日常生活的十年願景｜深入解讀《2025全球科技報告》

想知道機器人會取代你的工作嗎？貝恩《2025 全球科技報告》揭示，儘管人形機器人備受矚目，未來十年內，它們將會像「波浪」般循序漸進地進入特定產業，而非直接走入家庭：深入分析機器人的發展路徑與挑戰，電池、操控仍是瓶頸。想了解這波科技浪潮對我們生活有何影響？這篇文章將為你解讀未來機器人趨勢！

2025/09/27

人形機器人發展路徑預測：從實驗室走向日常生活的十年願景｜深入解讀《2025全球科技報告》

2025/09/25

別再說「ChatGPT就是這樣寫的」：從「幻覺」到「精進」，掌握職場AI協作的關鍵心法

一份來自《哈佛商業評論》的最新研究報告揭示了AI的隱形成本。40%的員工使用AI，卻導致每個月損失高達186美元的生產力。你是否也遇過「ChatGPT就是這樣寫的」這種情況？這篇文章探討AI幻覺與盲目信任的危害，提供3個實用方法，教你如何有效核實AI內容，讓它真正成為你的助力，而不是團隊的絆腳石。

2025/09/25

別再說「ChatGPT就是這樣寫的」：從「幻覺」到「精進」，掌握職場AI協作的關鍵心法

#AI 的其他內容

從《鬼滅之刃》看「變強」的代價：當成長變成權力與執念，我們都可能變成鬼｜怪獸科技公司

Anthropic 團隊現身說法：如何設計一個高效率的 AI Agent【全文摘要翻譯】

學習玩家｜啟動玩心學習

打造專屬你的 AI 助理：從 Gemini 的 Gem 功能開始｜附贈 PARTS 設計小指南

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15