近期 AI 界的模型更新頻率之快,已經快要跟不上了呢!就在昨天,OpenAI 正式發布了 GPT-5.4 Thinking。除了一如既往的推理能力升級之外,最重要的是Open AI首度將 工程執行 的原生能力植入大腦。
結合 EgentHub 在企業AI導入的實戰觀察來看,從去年Q4起,各AI模型積極的推動讓AI操作電腦的功能,尤其在龍蝦(ClawBot)爆紅之後,這更是成為模型商的重點發展方向,比如上個月推出的Claude Sonnet 4.6。這次,GPT-5.4 Thinking的發布,小編認為 ****可視為是對Claude Sonnet 4.6的正面迎擊,就一樣由EgentHub帶著各位讀者一起來看本次更新吧!
EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送
重點整理 Takeaway
- 專業工作勝率達 83%: 在涵蓋 44 種職業與 9 大產業(包含會計、製造、銷售等)的 GDPval 測試中,表現已能與資深專業人士並駕齊驅。
- 原生「電腦使用」能力: 具備 1,024 萬像素的超高精細視覺,能像真人一樣操作滑鼠與鍵盤,OSWorld 成功率達 75.0%。
- 中途修正思考計畫: 首創「思考前置計畫」,使用者可在回應中途直接介入調整方向,大幅縮短修正對話的往返時間。
- 100 萬 Token 的極限視野: 具備「過目不忘」的深度資訊檢索能力,可處理長達數百萬行的代碼或厚重的法律合約。
- 精準工具搜尋 (Tool Search): 創新的調用機制,能有效減少 47% 的 Token 消耗,解決企業連結上萬組內部 API 時的成本痛點。

看得見的思考過程:從等待結果轉向「中途導引」
GPT-5.4 Thinking 在使用者體驗上帶來了一個新設計:透明度。原先當你在對話框輸入完你的問題或需求之後,能做的往往是靜靜的等待AI思考、然後慢慢吐出一個可能錯誤的答案。在GPT-5.4 Thinking,模型在處理複雜任務時,會先呈現一份**思考計畫(Upfront Plan),讓你在接收正式答案前可以先有快速審查的機會,**若發現在第 10 秒時 AI 的思考方向產生偏差,使用者可以立即介入「中途調整方向」,將 AI 引導至正確的脈絡。
這種互動模式尤其有助於長鏈任務,讓長任務的規劃不再如同開盲盒,而具有高度可控與協作性。此外,在面對高度特定的艱深查詢時,深度網頁搜尋與脈絡維持能力也有顯著提升,能更持久地在多輪搜尋中鎖定大海撈針式的關鍵資訊。
專業工作的霸主:44 種職業、9 大產業的全面覆蓋
根據 GDPval 測試數據,GPT-5.4 已成為目前處理知識工作最精準的模型。它不僅在 83.0% 的專業任務測試中獲勝或平手,其測試範圍更廣及銷售、會計、製造、醫療調度等多樣產業。
根據官方文件的說明,GPT-5.4在以下產業皆有卓越的表現:
- 金融建模: 在投資銀行初級分析師的 Excel 建模測試中,GPT-5.4 取得了 87.3% 的平均得分,顯著優於前代的 68.4%。
- 專業簡報: 由於具備更強的美感判斷與視覺多樣性,GPT-5.4 生成的 PPT 獲得了 68% 人類評分者的青睞。
- 法律實務: 在處理法律合約的 BigLaw Bench 評測中取得 91% 的高標。對於法律部門而言,這意味著它能處理長程的契約審閱,且不會遺漏任何微小的法務細節。
- 有效降低事實錯誤: OpenAI 特別針對「使用者回報的事實錯誤」進行優化。與 GPT-5.2 相比,GPT-5.4 在個別事實宣稱的出錯機率下降了 33%,整體回應的錯誤率則大幅降低了 18%。
數位雙手的進化:原生 4K 視覺與電腦操作能力
GPT-5.4 最震撼的突破是具備了原生的操作電腦能力,這似乎顯示聊天型AI逐漸往操作型AI轉型的趨勢。
視覺上,透過最新的 原始影像輸入細節(Original Image Input Detail) 技術,模型能看清高達 1,024 萬像素 的畫面資訊。這意味著 AI 即使面對高解析度螢幕上的微小按鈕或精細文字,也能精準識別並執行座標點擊與鍵盤輸入。
在衡量桌面導航能力的 OSWorld 測試中,GPT-5.4 取得了 75.0% 的成功率,正式超越了人類平均水平(72.4%)。
對於企業而言,即使是那些沒有開發API或是MCP的舊系統,GPT-5.4 現在也能像真人員工一樣看著螢幕、填寫報表並跑完自動化流程。

1M 上下文與「省錢版」工具搜尋
在技術底層,GPT-5.4 也加入了 100 萬 Token 超長上下文視窗陣線,現在GPT、Gemini、Claude都正式接受了百萬Token的上下文視窗, 這種深度記憶力讓企業能一次處理數百份研報或整份原始碼庫而不遺忘任何細節。
另一項有趣的設計是,為了克服過去載入過多 API 定義導致的成本飆增,OpenAI 推出了工具搜尋 (Tool Search)。傳統做法是將所有工具定義一次塞給模型,就像強迫助手背下整本目錄;現在則是讓 AI 學會查目錄,只有需要時才調用特定工具。這種按需要付費的模式,能有效節省 47% 的 Token 消耗,讓企業能低成本地串接上萬個 MCP 伺服器內部 API。
程式編寫:從代碼生產到自主
GPT-5.4 繼承了 Codex 的工程基因,在 SWE-Bench Pro(工業級軟體測試)中展現出極強的穩定性。最引人注目的是全新的「Playwright (Interactive)」功能。
在官方案例中,GPT-5.4 能僅憑一則簡短指令,自主開發出一款具備 3D 物理效果與經營邏輯的「主題樂園遊戲」。更驚人的是,它會扮演開發者與測試員的雙重角色,一邊編寫網頁,一邊啟動瀏覽器進行視覺化除錯(Visual Debugging)——也就是 AI 會親自去「玩」這款遊戲,檢查路徑尋找、 happiness 指標是否運作正常,並在發現 Bug 時主動修正,實現了驚人的自主迭代能力。
定價與可用性資訊
GPT-5.4 Thinking 目前已在 ChatGPT 中取代舊有的 5.2 版本,並同步開放 API 供開發者使用。
API 定價資訊 (Per 1M Tokens)
- GPT-5.4 (標準版): 輸入 $2.50 / 輸出 $15.00。
- GPT-5.4 Pro (旗艦版): 輸入 $30.00 / 輸出 $180.00。
(註:適用於需要極限精度之科學與數學推理任務)
- 緩存輸入優惠: 標準版 Cached Input 僅需 $0.25,顯著降低重複請求成本。
小編的話:熟悉的大師兄回來了嗎?
在長期的使用下,小編其實對於GPT近幾個月的更新沒有感受到明顯的能力躍進,或者說有持續優化,但沒有特別印象深刻的更新。但這次 GPT-5.4 的登場,AI 已正式跨越了對話框,成為具備視覺與執行力的數位 Agent,加上一些有趣的功能更新,還是讓我為之一亮,至於實際使用效果如何,就仍需要時間來驗證了。
而從 EgentHub 的觀察來看,企業導入使用者面對長期的使用安全習慣與一定的資安保護政策,要快速接受讓AI代為操作重要系統多少有些疑慮。我們的建議是先從擁有企業AI Agent開始,讓人使用AI,讓AI調用工具,留下完整的Log讓每個行動可以被追蹤才是更為穩妥的做法。
EgentHub認為企業AI導入的關鍵是在能力與安全之間取得平衡,建立一個具備彈性的 AI 整合架構。EgentHub擁有企業級AI Agent管理平台,支援多種主流模型自由配置與強大的 MCP (Model Context Protocol) 串接能力,同時有完善的RBAC權限管理架構,讓企業AI Agent的使用更安全,企業AI導入也曾能真正落地。
EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送























