ChatGPT Agent 登場:新一代 AI 代理人

更新於 發佈於 閱讀時間約 11 分鐘

想像一下,一個 AI 不僅能理解你的指令,還能自主地開啟電腦、瀏覽網站、運行程式碼、分析數據,甚至幫你完成會議排程或旅行規劃。這是 ChatGPT Agent 正在逐步實現的未來。OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!

raw-image

Introducing ChatGPT agent: bridging research and action

發布會懶人包

  • 自主執行任務:ChatGPT Agent 不再只是回答問題,它能主動判斷、規劃,並利用一系列工具來完成複雜的任務,原則上除了請求使用者許可權限之外,任務處理過程無需人工干預。
  • 整合多項舊有能力:它融合了 OpenAI 過去兩大突破性研究的精髓——「Operator」(善於與網站互動,如捲動、點擊、輸入文字)和「Deep Research」(擅長深度分析與總結資訊)。如今,Agent 將兩者融會貫通,並加入對話能力,實現更全面的功能。
  • 多元應用場景:無論是審閱行事曆並根據新聞摘要會議重點、規劃並採買早餐食材、分析三家競爭者並製作投影片,還是處理財務數據並生成可編輯的試算表,Agent 都能勝任。
  • 用戶全程掌控:儘管 Agent 具備高度自主性,但用戶始終握有控制權。在執行關鍵操作(如發送郵件、進行購買)前,Agent 會請求許可。用戶可以隨時中斷任務、接管瀏覽器或停止進程。
  • 分階段推出:ChatGPT Agent 將逐步向 Pro、Plus 和 Team 用戶推出,企業和教育用戶預計在 2025 年夏季開放。

從「操作員」到「代理人」:ChatGPT Agent 的演進

過去,OpenAI 推出的「Operator」模型專注於網路互動,能夠模擬人類在網頁上的點擊、捲動和輸入文字;而「Deep Research」則擅長深度分析和資訊總結。兩者各有專長,但在跨領域任務上存在壁壘。ChatGPT Agent 的核心突破在於其「統一的代理系統」(unified agentic system)。它打破了這些功能界限,將 Operator 的行動能力和 Deep Research 的分析洞察力無縫結合。

多元工具整合:Agent 如何「動手」執行任務

為了賦予 ChatGPT Agent 真正的「行動」能力,OpenAI 為其配備了一套多樣化的工具箱,使其能夠在虛擬電腦上靈活操作:

  • 視覺化瀏覽器 (Visual Browser):Agent 能夠像人類一樣,透過圖形使用者介面(GUI)與網頁進行互動。這讓它能瀏覽設計給人類使用的複雜網站,進行點擊、填寫表單等操作。
  • 文字型瀏覽器 (Text-based Browser):對於需要高效進行資訊推理或抓取數據的簡單網頁查詢,Agent 可以使用文字型瀏覽器,這有助於它快速處理大量文本資訊。
  • 終端機 (Terminal):Agent 能夠運行程式碼,這意味著它不僅能分析數據,還能執行腳本、操作文件,甚至進行更深度的技術任務。
  • 直接 API 存取 (Direct API Access):透過 API 連接器(如 Gmail 和 GitHub),Agent 可以直接與其他應用程式互動,獲取相關資訊或執行特定操作,例如從行事曆中讀取會議時間,或從郵件中提取關鍵資訊。
  • 安全登入與接管:Agent 甚至能夠在用戶授權下「接管」瀏覽器,安全地登入各類網站。這讓它能夠深入到需要身份驗證的內容,擴展其研究和任務執行範圍,同時確保用戶的輸入(如密碼)不被模型收集或儲存。

真實應用於工作與生活:釋放更多時間

  • 報告與簡報製作:自動將截圖或數據儀表板轉化為可編輯的向量圖形投影片;根據最新財報數據,更新試算表並保持原有格式。
  • 行政事務自動化:重新安排會議、規劃與預訂員工外出活動(如公司旅遊),甚至處理差旅報銷單據。
  • 數據分析:分析競爭者數據,生成相關報告。
  • 旅行規劃:自動規劃並預訂整個旅行行程。
  • 活動籌辦:設計、規劃並預訂完整的晚宴活動。生活服務:尋找專家並預約服務(如預約醫生、修理工等)。
  • 購物:規劃購物清單,甚至自動幫你預訂或購買商品,例如為朋友的婚禮購買禮服、預訂旅行和選擇禮物。

OpenAI 示範,某些任務如規劃約會或生成投影片,Agent 可以在 5 到 25 分鐘內完成,並且通常能在後台運行,大大節省用戶時間。這種自動化能力,讓用戶能將重複性高、耗時長的任務交由 Agent 處理,進而釋放更多時間專注於更具策略性或創造性的工作。

效能數據:Agent 到底有多聰明?

OpenAI 對 ChatGPT Agent 進行了一系列嚴格的基準測試,以量化其在各種複雜任務上的表現,數據顯示其能力顯著超越了前代模型和人類基準。

  • Humanity's Last Exam(HLE):ChatGPT Agent 的核心模型在「單次通過率」上得分 41.6%,當採用「平行展開策略」(同時進行多達八次嘗試並選擇可信度最高的結果)時,Agent 的 HLE 分數進一步提高到 44.4%。
  • DSBench:專門評估 AI 在數據分析和建模等真實數據科學任務上的表現,ChatGPT Agent 在此基準上顯著超越了人類表現。在「數據分析」中達到 87.9% 的準確度(相較於人類的 64.1%),在「數據建模」中達到 77.1% 的相對性能提升(相較於人類的 65.0%)。
  • SpreadsheetBench:評估模型編輯基於真實場景的試算表的能力。ChatGPT Agent 表現出色,當直接給予編輯試算表的能力時,得分高達 45.5%,遠超 Excel 中的 Copilot (20.0%)。
  • BrowseComp:衡量瀏覽代理人尋找網路上難以找到的資訊的能力。ChatGPT Agent 創造了 68.9% 的新 SOTA,比 Deep Research 高出 17.4 個百分點。
  • WebArena:評估網頁瀏覽代理人完成真實世界網頁任務的性能。ChatGPT Agent 的表現優於由 O3 驅動的 CUA (Operator 模型),達到 78.2% 的準確度(人類為 65.4%)。

安全與風險:OpenAI 的謹慎之道

OpenAI 在發布 ChatGPT Agent 的同時,也高度重視其潛在的風險。這款首次允許用戶要求 ChatGPT 直接在網路上採取行動的產品,特別是因為 Agent 可以直接存取用戶數據,引入了新的安全挑戰。為了應對這些風險,OpenAI 實施了多層次的保障措施:

  • 明確的用戶確認 (Explicit User Confirmation):ChatGPT Agent 在執行具有現實世界影響的行動(例如進行購買、發送電子郵件)之前,會明確請求用戶的許可。
  • 主動監管 (“Watch Mode”):針對某些關鍵任務,例如發送電子郵件,Agent 會啟用「監管模式」,要求用戶主動監督其操作,確保用戶能隨時介入。
  • 主動風險規避 (Proactive Risk Mitigation):Agent 經過訓練,會主動拒絕高風險任務,例如銀行轉帳,以避免潛在的巨大損失。
  • 隱私控制 (Privacy Controls):用戶可以一鍵清除所有瀏覽數據,並立即登出所有活躍的網站會話。在「接管模式」下,用戶輸入的數據(如密碼)也不會被模型收集或儲存,確保隱私安全。
  • 對抗性操作緩解 (Adversarial Manipulation Mitigation):OpenAI 特別強調防範「提示注入」(Prompt Injection) 攻擊。這種攻擊試圖透過惡意指令(可能隱藏在網頁的不可見元素或元數據中)操縱 Agent 的行為,使其洩露私人數據或執行不應有的操作。Agent 已接受訓練來識別和抵禦此類攻擊,並有監控系統快速響應。
  • 迭代部署的警告 (Warnings with Iterative Deployment):Sam Altman 強調,ChatGPT Agent 仍處於實驗性階段。他建議用戶謹慎使用,特別是在涉及高風險或大量個人信息的場景下。他建議只給予 Agent 完成任務所需的最低限度存取權限,以降低隱私和安全風險。例如,允許 Agent 存取日曆以安排晚餐,但若僅是購物則無需任何存取權限。

TN科技筆記的觀點

  • 真正意義上的「自動化」:過去的 AI 自動化多半停留在資訊處理層面,而 Agent 透過其「虛擬電腦」和多元工具整合,實現了跨應用、跨平台的真正「動手」能力。這代表許多重複性高、規則性強的工作,將能被大規模自動化,釋放人類的生產力。
  • 超前的整合能力:將 Operator 的互動能力和 Deep Research 的分析深度融為一體,並結合對話式 AI,這是一個非常巧妙且強大的設計。它讓 AI 不再是零散的工具箱,而是一個能夠自主判斷並調用工具的智能實體,這種「智慧調度」正是 AI 代理人的精髓所在。
  • 「黑箱」的風險:儘管 OpenAI 強調用戶掌控權,但在實際操作中,當 Agent 自主進行一系列複雜的網頁操作和程式執行時,用戶是否能完全理解其每一步決策的意圖,以及在多大程度上進行有效干預,仍是一個考驗。特別是在高度自動化的背景下,一旦出現偏差,其影響可能比傳統 AI 錯誤更難追蹤和修正。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
31會員
121內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
2025/07/09
TN科技筆記帶各位解析AI教母李飛飛的最新洞見。從引爆深度學習革命的 ImageNet,到她全力投入的「空間智慧」。了解為何理解 3D 世界比語言模型更難,以及它如何成為通往 AGI 的關鍵拼圖。
2025/07/09
TN科技筆記帶各位解析AI教母李飛飛的最新洞見。從引爆深度學習革命的 ImageNet,到她全力投入的「空間智慧」。了解為何理解 3D 世界比語言模型更難,以及它如何成為通往 AGI 的關鍵拼圖。
2025/07/04
TN科技筆記將節錄重點介紹 Ilya 的獲勝策略,並分享其在實戰中積累的寶貴經驗,幫助讀者理解如何在企業級應用中實踐 RAG。
Thumbnail
2025/07/04
TN科技筆記將節錄重點介紹 Ilya 的獲勝策略,並分享其在實戰中積累的寶貴經驗,幫助讀者理解如何在企業級應用中實踐 RAG。
Thumbnail
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
在這個AI科技日新月異的時代,快速掌握AI技術,讓你有更多時間享受生活。聊天機器人不僅能處理重複性任務,還可以提高客戶互動品質,簡直是工作中的神助手。文章介紹了聊天機器人的功能及推薦資源,充滿實用的技巧,值得在工作中試試看,讓這些AI工具成為你的好助手!
Thumbnail
在這個AI科技日新月異的時代,快速掌握AI技術,讓你有更多時間享受生活。聊天機器人不僅能處理重複性任務,還可以提高客戶互動品質,簡直是工作中的神助手。文章介紹了聊天機器人的功能及推薦資源,充滿實用的技巧,值得在工作中試試看,讓這些AI工具成為你的好助手!
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
隨著ChatGPT問世以來,AI持續在不同領域上發揮作用。虛擬人已能代理人類完成特定任務,是新興科技從工具擴展至落地應用服務的關鍵產物。 透過觀察AI如何賦能Web3的發展,以及觀測各種國際創新應用案例,請參加此免費研討會,了解「虛擬人應用發展趨勢」和「從AI賦能Web3新興應用看發展趨勢」二個議題
Thumbnail
隨著ChatGPT問世以來,AI持續在不同領域上發揮作用。虛擬人已能代理人類完成特定任務,是新興科技從工具擴展至落地應用服務的關鍵產物。 透過觀察AI如何賦能Web3的發展,以及觀測各種國際創新應用案例,請參加此免費研討會,了解「虛擬人應用發展趨勢」和「從AI賦能Web3新興應用看發展趨勢」二個議題
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
從Open AI推出Chat GPT3.5以來,2023年幾乎話題都圍繞著生成AI,在經濟市場上,AI科技股看好看漲,而AI的運用,更是突破大家的想像。 甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹,想進一步瞭解,在AI浪潮之下,兩岸就AI的法律有沒有什麼相應的管制或措施?
Thumbnail
從Open AI推出Chat GPT3.5以來,2023年幾乎話題都圍繞著生成AI,在經濟市場上,AI科技股看好看漲,而AI的運用,更是突破大家的想像。 甚至連詐騙集團都趕上AI的風潮。之前節目有針對兩岸詐騙手法與模式作介紹,想進一步瞭解,在AI浪潮之下,兩岸就AI的法律有沒有什麼相應的管制或措施?
Thumbnail
在人工智能快速發展的今天,OpenAI 最新宣布的一項改革,無疑為我們提供了更加直接和便捷的方式來接觸和利用這項創新技術:現在您可以立即使用 ChatGPT,而無需進行任何註冊過程。
Thumbnail
在人工智能快速發展的今天,OpenAI 最新宣布的一項改革,無疑為我們提供了更加直接和便捷的方式來接觸和利用這項創新技術:現在您可以立即使用 ChatGPT,而無需進行任何註冊過程。
Thumbnail
OpenAI 正在開发兩種類型的 AI 助手,這些軟體將協助完成原本由人類執行的任務,而無須人類密切監督。其中一種類型的 AI 代理人可以透過接管使用者的設備來自動化某些複雜任務,例如 ChatGPT 助理將數據從文檔轉移到電子表格或填寫費用報告並將它們輸入到會計軟體中。此類 AI 助理將需要使用者
Thumbnail
OpenAI 正在開发兩種類型的 AI 助手,這些軟體將協助完成原本由人類執行的任務,而無須人類密切監督。其中一種類型的 AI 代理人可以透過接管使用者的設備來自動化某些複雜任務,例如 ChatGPT 助理將數據從文檔轉移到電子表格或填寫費用報告並將它們輸入到會計軟體中。此類 AI 助理將需要使用者
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News