想像一下,一個 AI 不僅能理解你的指令,還能自主地開啟電腦、瀏覽網站、運行程式碼、分析數據,甚至幫你完成會議排程或旅行規劃。這是 ChatGPT Agent 正在逐步實現的未來。OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!

Introducing ChatGPT agent: bridging research and action
發布會懶人包
- 自主執行任務:ChatGPT Agent 不再只是回答問題,它能主動判斷、規劃,並利用一系列工具來完成複雜的任務,原則上除了請求使用者許可權限之外,任務處理過程無需人工干預。
- 整合多項舊有能力:它融合了 OpenAI 過去兩大突破性研究的精髓——「Operator」(善於與網站互動,如捲動、點擊、輸入文字)和「Deep Research」(擅長深度分析與總結資訊)。如今,Agent 將兩者融會貫通,並加入對話能力,實現更全面的功能。
- 多元應用場景:無論是審閱行事曆並根據新聞摘要會議重點、規劃並採買早餐食材、分析三家競爭者並製作投影片,還是處理財務數據並生成可編輯的試算表,Agent 都能勝任。
- 用戶全程掌控:儘管 Agent 具備高度自主性,但用戶始終握有控制權。在執行關鍵操作(如發送郵件、進行購買)前,Agent 會請求許可。用戶可以隨時中斷任務、接管瀏覽器或停止進程。
- 分階段推出:ChatGPT Agent 將逐步向 Pro、Plus 和 Team 用戶推出,企業和教育用戶預計在 2025 年夏季開放。
從「操作員」到「代理人」:ChatGPT Agent 的演進
過去,OpenAI 推出的「Operator」模型專注於網路互動,能夠模擬人類在網頁上的點擊、捲動和輸入文字;而「Deep Research」則擅長深度分析和資訊總結。兩者各有專長,但在跨領域任務上存在壁壘。ChatGPT Agent 的核心突破在於其「統一的代理系統」(unified agentic system)。它打破了這些功能界限,將 Operator 的行動能力和 Deep Research 的分析洞察力無縫結合。多元工具整合:Agent 如何「動手」執行任務
為了賦予 ChatGPT Agent 真正的「行動」能力,OpenAI 為其配備了一套多樣化的工具箱,使其能夠在虛擬電腦上靈活操作:
- 視覺化瀏覽器 (Visual Browser):Agent 能夠像人類一樣,透過圖形使用者介面(GUI)與網頁進行互動。這讓它能瀏覽設計給人類使用的複雜網站,進行點擊、填寫表單等操作。
- 文字型瀏覽器 (Text-based Browser):對於需要高效進行資訊推理或抓取數據的簡單網頁查詢,Agent 可以使用文字型瀏覽器,這有助於它快速處理大量文本資訊。
- 終端機 (Terminal):Agent 能夠運行程式碼,這意味著它不僅能分析數據,還能執行腳本、操作文件,甚至進行更深度的技術任務。
- 直接 API 存取 (Direct API Access):透過 API 連接器(如 Gmail 和 GitHub),Agent 可以直接與其他應用程式互動,獲取相關資訊或執行特定操作,例如從行事曆中讀取會議時間,或從郵件中提取關鍵資訊。
- 安全登入與接管:Agent 甚至能夠在用戶授權下「接管」瀏覽器,安全地登入各類網站。這讓它能夠深入到需要身份驗證的內容,擴展其研究和任務執行範圍,同時確保用戶的輸入(如密碼)不被模型收集或儲存。
真實應用於工作與生活:釋放更多時間
- 報告與簡報製作:自動將截圖或數據儀表板轉化為可編輯的向量圖形投影片;根據最新財報數據,更新試算表並保持原有格式。
- 行政事務自動化:重新安排會議、規劃與預訂員工外出活動(如公司旅遊),甚至處理差旅報銷單據。
- 數據分析:分析競爭者數據,生成相關報告。
- 旅行規劃:自動規劃並預訂整個旅行行程。
- 活動籌辦:設計、規劃並預訂完整的晚宴活動。生活服務:尋找專家並預約服務(如預約醫生、修理工等)。
- 購物:規劃購物清單,甚至自動幫你預訂或購買商品,例如為朋友的婚禮購買禮服、預訂旅行和選擇禮物。
OpenAI 示範,某些任務如規劃約會或生成投影片,Agent 可以在 5 到 25 分鐘內完成,並且通常能在後台運行,大大節省用戶時間。這種自動化能力,讓用戶能將重複性高、耗時長的任務交由 Agent 處理,進而釋放更多時間專注於更具策略性或創造性的工作。
效能數據:Agent 到底有多聰明?
OpenAI 對 ChatGPT Agent 進行了一系列嚴格的基準測試,以量化其在各種複雜任務上的表現,數據顯示其能力顯著超越了前代模型和人類基準。
- Humanity's Last Exam(HLE):ChatGPT Agent 的核心模型在「單次通過率」上得分 41.6%,當採用「平行展開策略」(同時進行多達八次嘗試並選擇可信度最高的結果)時,Agent 的 HLE 分數進一步提高到 44.4%。
- DSBench:專門評估 AI 在數據分析和建模等真實數據科學任務上的表現,ChatGPT Agent 在此基準上顯著超越了人類表現。在「數據分析」中達到 87.9% 的準確度(相較於人類的 64.1%),在「數據建模」中達到 77.1% 的相對性能提升(相較於人類的 65.0%)。
- SpreadsheetBench:評估模型編輯基於真實場景的試算表的能力。ChatGPT Agent 表現出色,當直接給予編輯試算表的能力時,得分高達 45.5%,遠超 Excel 中的 Copilot (20.0%)。
- BrowseComp:衡量瀏覽代理人尋找網路上難以找到的資訊的能力。ChatGPT Agent 創造了 68.9% 的新 SOTA,比 Deep Research 高出 17.4 個百分點。
- WebArena:評估網頁瀏覽代理人完成真實世界網頁任務的性能。ChatGPT Agent 的表現優於由 O3 驅動的 CUA (Operator 模型),達到 78.2% 的準確度(人類為 65.4%)。
安全與風險:OpenAI 的謹慎之道
OpenAI 在發布 ChatGPT Agent 的同時,也高度重視其潛在的風險。這款首次允許用戶要求 ChatGPT 直接在網路上採取行動的產品,特別是因為 Agent 可以直接存取用戶數據,引入了新的安全挑戰。為了應對這些風險,OpenAI 實施了多層次的保障措施:
- 明確的用戶確認 (Explicit User Confirmation):ChatGPT Agent 在執行具有現實世界影響的行動(例如進行購買、發送電子郵件)之前,會明確請求用戶的許可。
- 主動監管 (“Watch Mode”):針對某些關鍵任務,例如發送電子郵件,Agent 會啟用「監管模式」,要求用戶主動監督其操作,確保用戶能隨時介入。
- 主動風險規避 (Proactive Risk Mitigation):Agent 經過訓練,會主動拒絕高風險任務,例如銀行轉帳,以避免潛在的巨大損失。
- 隱私控制 (Privacy Controls):用戶可以一鍵清除所有瀏覽數據,並立即登出所有活躍的網站會話。在「接管模式」下,用戶輸入的數據(如密碼)也不會被模型收集或儲存,確保隱私安全。
- 對抗性操作緩解 (Adversarial Manipulation Mitigation):OpenAI 特別強調防範「提示注入」(Prompt Injection) 攻擊。這種攻擊試圖透過惡意指令(可能隱藏在網頁的不可見元素或元數據中)操縱 Agent 的行為,使其洩露私人數據或執行不應有的操作。Agent 已接受訓練來識別和抵禦此類攻擊,並有監控系統快速響應。
- 迭代部署的警告 (Warnings with Iterative Deployment):Sam Altman 強調,ChatGPT Agent 仍處於實驗性階段。他建議用戶謹慎使用,特別是在涉及高風險或大量個人信息的場景下。他建議只給予 Agent 完成任務所需的最低限度存取權限,以降低隱私和安全風險。例如,允許 Agent 存取日曆以安排晚餐,但若僅是購物則無需任何存取權限。
TN科技筆記的觀點
- 真正意義上的「自動化」:過去的 AI 自動化多半停留在資訊處理層面,而 Agent 透過其「虛擬電腦」和多元工具整合,實現了跨應用、跨平台的真正「動手」能力。這代表許多重複性高、規則性強的工作,將能被大規模自動化,釋放人類的生產力。
- 超前的整合能力:將 Operator 的互動能力和 Deep Research 的分析深度融為一體,並結合對話式 AI,這是一個非常巧妙且強大的設計。它讓 AI 不再是零散的工具箱,而是一個能夠自主判斷並調用工具的智能實體,這種「智慧調度」正是 AI 代理人的精髓所在。
- 「黑箱」的風險:儘管 OpenAI 強調用戶掌控權,但在實際操作中,當 Agent 自主進行一系列複雜的網頁操作和程式執行時,用戶是否能完全理解其每一步決策的意圖,以及在多大程度上進行有效干預,仍是一個考驗。特別是在高度自動化的背景下,一旦出現偏差,其影響可能比傳統 AI 錯誤更難追蹤和修正。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!