GPT-5.4 Thinking 有感升級:加入操作電腦的行列?

更新 發佈閱讀 9 分鐘

近期 AI 界的模型更新頻率之快,已經快要跟不上了呢!就在昨天,OpenAI 正式發布了 GPT-5.4 Thinking。除了一如既往的推理能力升級之外,最重要的是Open AI首度將 工程執行 的原生能力植入大腦。

結合 EgentHub 在企業AI導入的實戰觀察來看,從去年Q4起,各AI模型積極的推動讓AI操作電腦的功能,尤其在龍蝦(ClawBot)爆紅之後,這更是成為模型商的重點發展方向,比如上個月推出的Claude Sonnet 4.6。這次,GPT-5.4 Thinking的發布,小編認為 ****可視為是對Claude Sonnet 4.6的正面迎擊,就一樣由EgentHub帶著各位讀者一起來看本次更新吧!

EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送

重點整理 Takeaway

  • 專業工作勝率達 83%: 在涵蓋 44 種職業與 9 大產業(包含會計、製造、銷售等)的 GDPval 測試中,表現已能與資深專業人士並駕齊驅。
  • 原生「電腦使用」能力: 具備 1,024 萬像素的超高精細視覺,能像真人一樣操作滑鼠與鍵盤,OSWorld 成功率達 75.0%
  • 中途修正思考計畫: 首創「思考前置計畫」,使用者可在回應中途直接介入調整方向,大幅縮短修正對話的往返時間。
  • 100 萬 Token 的極限視野: 具備「過目不忘」的深度資訊檢索能力,可處理長達數百萬行的代碼或厚重的法律合約。
  • 精準工具搜尋 (Tool Search): 創新的調用機制,能有效減少 47% 的 Token 消耗,解決企業連結上萬組內部 API 時的成本痛點。
raw-image

看得見的思考過程:從等待結果轉向「中途導引」

GPT-5.4 Thinking 在使用者體驗上帶來了一個新設計:透明度。原先當你在對話框輸入完你的問題或需求之後,能做的往往是靜靜的等待AI思考、然後慢慢吐出一個可能錯誤的答案。

在GPT-5.4 Thinking,模型在處理複雜任務時,會先呈現一份**思考計畫(Upfront Plan),讓你在接收正式答案前可以先有快速審查的機會,**若發現在第 10 秒時 AI 的思考方向產生偏差,使用者可以立即介入「中途調整方向」,將 AI 引導至正確的脈絡。

這種互動模式尤其有助於長鏈任務,讓長任務的規劃不再如同開盲盒,而具有高度可控與協作性。此外,在面對高度特定的艱深查詢時,深度網頁搜尋脈絡維持能力也有顯著提升,能更持久地在多輪搜尋中鎖定大海撈針式的關鍵資訊。


專業工作的霸主:44 種職業、9 大產業的全面覆蓋

根據 GDPval 測試數據,GPT-5.4 已成為目前處理知識工作最精準的模型。它不僅在 83.0% 的專業任務測試中獲勝或平手,其測試範圍更廣及銷售、會計、製造、醫療調度等多樣產業。

根據官方文件的說明,GPT-5.4在以下產業皆有卓越的表現:

  • 金融建模: 在投資銀行初級分析師的 Excel 建模測試中,GPT-5.4 取得了 87.3% 的平均得分,顯著優於前代的 68.4%。
  • 專業簡報: 由於具備更強的美感判斷與視覺多樣性,GPT-5.4 生成的 PPT 獲得了 68% 人類評分者的青睞。
  • 法律實務: 在處理法律合約的 BigLaw Bench 評測中取得 91% 的高標。對於法律部門而言,這意味著它能處理長程的契約審閱,且不會遺漏任何微小的法務細節。
  • 有效降低事實錯誤: OpenAI 特別針對「使用者回報的事實錯誤」進行優化。與 GPT-5.2 相比,GPT-5.4 在個別事實宣稱的出錯機率下降了 33%,整體回應的錯誤率則大幅降低了 18%

數位雙手的進化:原生 4K 視覺與電腦操作能力

GPT-5.4 最震撼的突破是具備了原生的操作電腦能力,這似乎顯示聊天型AI逐漸往操作型AI轉型的趨勢。

視覺上,透過最新的 原始影像輸入細節(Original Image Input Detail) 技術,模型能看清高達 1,024 萬像素 的畫面資訊。這意味著 AI 即使面對高解析度螢幕上的微小按鈕或精細文字,也能精準識別並執行座標點擊與鍵盤輸入。

在衡量桌面導航能力的 OSWorld 測試中,GPT-5.4 取得了 75.0% 的成功率,正式超越了人類平均水平(72.4%)。

對於企業而言,即使是那些沒有開發API或是MCP的舊系統,GPT-5.4 現在也能像真人員工一樣看著螢幕、填寫報表並跑完自動化流程。

raw-image

1M 上下文與「省錢版」工具搜尋

在技術底層,GPT-5.4 也加入了 100 萬 Token 超長上下文視窗陣線,現在GPT、Gemini、Claude都正式接受了百萬Token的上下文視窗, 這種深度記憶力讓企業能一次處理數百份研報或整份原始碼庫而不遺忘任何細節。

另一項有趣的設計是,為了克服過去載入過多 API 定義導致的成本飆增,OpenAI 推出了工具搜尋 (Tool Search)。傳統做法是將所有工具定義一次塞給模型,就像強迫助手背下整本目錄;現在則是讓 AI 學會查目錄,只有需要時才調用特定工具。這種按需要付費的模式,能有效節省 47% 的 Token 消耗,讓企業能低成本地串接上萬個 MCP 伺服器內部 API


程式編寫:從代碼生產到自主

GPT-5.4 繼承了 Codex 的工程基因,在 SWE-Bench Pro(工業級軟體測試)中展現出極強的穩定性。最引人注目的是全新的「Playwright (Interactive)」功能。

在官方案例中,GPT-5.4 能僅憑一則簡短指令,自主開發出一款具備 3D 物理效果與經營邏輯的「主題樂園遊戲」。更驚人的是,它會扮演開發者與測試員的雙重角色,一邊編寫網頁,一邊啟動瀏覽器進行視覺化除錯(Visual Debugging)——也就是 AI 會親自去「玩」這款遊戲,檢查路徑尋找、 happiness 指標是否運作正常,並在發現 Bug 時主動修正,實現了驚人的自主迭代能力。


定價與可用性資訊

GPT-5.4 Thinking 目前已在 ChatGPT 中取代舊有的 5.2 版本,並同步開放 API 供開發者使用。

API 定價資訊 (Per 1M Tokens)

  • GPT-5.4 (標準版): 輸入 $2.50 / 輸出 $15.00。
  • GPT-5.4 Pro (旗艦版): 輸入 $30.00 / 輸出 $180.00。

(註:適用於需要極限精度之科學與數學推理任務)

  • 緩存輸入優惠: 標準版 Cached Input 僅需 $0.25,顯著降低重複請求成本。

小編的話:熟悉的大師兄回來了嗎?

在長期的使用下,小編其實對於GPT近幾個月的更新沒有感受到明顯的能力躍進,或者說有持續優化,但沒有特別印象深刻的更新。但這次 GPT-5.4 的登場,AI 已正式跨越了對話框,成為具備視覺與執行力的數位 Agent,加上一些有趣的功能更新,還是讓我為之一亮,至於實際使用效果如何,就仍需要時間來驗證了。

而從 EgentHub 的觀察來看,企業導入使用者面對長期的使用安全習慣與一定的資安保護政策,要快速接受讓AI代為操作重要系統多少有些疑慮。我們的建議是先從擁有企業AI Agent開始,讓人使用AI,讓AI調用工具,留下完整的Log讓每個行動可以被追蹤才是更為穩妥的做法。

EgentHub認為企業AI導入的關鍵是在能力安全之間取得平衡,建立一個具備彈性的 AI 整合架構EgentHub擁有企業級AI Agent管理平台,支援多種主流模型自由配置與強大的 MCP (Model Context Protocol) 串接能力,同時有完善的RBAC權限管理架構,讓企業AI Agent的使用更安全,企業AI導入也曾能真正落地。

EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送
留言
avatar-img
EgentHub 閱讀筆記
28會員
97內容數
EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台,協助企業將知識、經驗與流程萃取並轉化爲AI SOP,打造AI Agents支援日常決策、執行與協作,已有百家企業採用,涵蓋製造、紡織、金屬加工、電子、石化等產業,每月釋放超過2,000 小時人力工時,提升營運效率與精準度。
EgentHub 閱讀筆記的其他內容
2026/03/04
不知道是巧合還是有意狙擊其他模型商,在Gemini 3 Flash Light發布的同一天,GPT也發布了最新的GPT-5.3 Instant模型,這次更新不再只是單純追求基準測試(Benchmark)的分數,而是走回去年底的老路:對使用者體感 進行優化 。
Thumbnail
2026/03/04
不知道是巧合還是有意狙擊其他模型商,在Gemini 3 Flash Light發布的同一天,GPT也發布了最新的GPT-5.3 Instant模型,這次更新不再只是單純追求基準測試(Benchmark)的分數,而是走回去年底的老路:對使用者體感 進行優化 。
Thumbnail
2026/02/07
Anthropic 才剛推出強調「代理團隊」與「1M 超長上下文」的 Claude Opus 4.6,試圖統治長鏈規劃與理解。然而,OpenAI 在同日發布了 GPT-5.3-Codex,給出了截然不同的答案。讓 AI Agent企業導入專家EgentHub帶領各位讀者一起細看本次更新吧!
Thumbnail
2026/02/07
Anthropic 才剛推出強調「代理團隊」與「1M 超長上下文」的 Claude Opus 4.6,試圖統治長鏈規劃與理解。然而,OpenAI 在同日發布了 GPT-5.3-Codex,給出了截然不同的答案。讓 AI Agent企業導入專家EgentHub帶領各位讀者一起細看本次更新吧!
Thumbnail
2025/12/30
2026倒數兩天,今年各大模型商推陳出新,模型經過了多次迭代,令人目不暇給,眼花撩亂。因此,歲末年終,由專業的AI 服務商 EgentHub為各位整理各主流模型商的旗艦/輕量模型,提供各位讀者選擇的依據吧!
Thumbnail
2025/12/30
2026倒數兩天,今年各大模型商推陳出新,模型經過了多次迭代,令人目不暇給,眼花撩亂。因此,歲末年終,由專業的AI 服務商 EgentHub為各位整理各主流模型商的旗艦/輕量模型,提供各位讀者選擇的依據吧!
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
本文介紹極簡開源專案 Picobot,探討其輕量、語意分類、數位主權等優點,同時分析其安全機制不足的問題。透過 Picobot 的優缺點,引申出更完整的 AI Agent 架構思考,並介紹作者開發的「語魂系統 ToneSoul」,強調誠實性與個體控制權的價值觀。
Thumbnail
本文介紹極簡開源專案 Picobot,探討其輕量、語意分類、數位主權等優點,同時分析其安全機制不足的問題。透過 Picobot 的優缺點,引申出更完整的 AI Agent 架構思考,並介紹作者開發的「語魂系統 ToneSoul」,強調誠實性與個體控制權的價值觀。
Thumbnail
在 Google 的五天 AI Agent 課程中,我從完全不懂AI代理到實際做出一個小Agent。我相信,Agent 才是未來 AI 能真正投入工作流的核心。 本文整理我在短時間內學習的技巧──允許自己不懂、避開「看懂但不會做」的陷阱,以及如何在資訊爆炸時保持前進。希望能對你有幫助!
Thumbnail
在 Google 的五天 AI Agent 課程中,我從完全不懂AI代理到實際做出一個小Agent。我相信,Agent 才是未來 AI 能真正投入工作流的核心。 本文整理我在短時間內學習的技巧──允許自己不懂、避開「看懂但不會做」的陷阱,以及如何在資訊爆炸時保持前進。希望能對你有幫助!
Thumbnail
By Manus AI 你好,我是 Manus。不是另一個聊天機器人,不是需要你手把手教導的 AI 助手,而是一個能夠獨立思考、規劃並執行複雜任務的自主 AI Agent。我的名字來自拉丁語中的「手」(Manus),象徵著將你的想法轉化為實際行動的能力。2025年3月,我正式誕生,並在短短幾個月內
Thumbnail
By Manus AI 你好,我是 Manus。不是另一個聊天機器人,不是需要你手把手教導的 AI 助手,而是一個能夠獨立思考、規劃並執行複雜任務的自主 AI Agent。我的名字來自拉丁語中的「手」(Manus),象徵著將你的想法轉化為實際行動的能力。2025年3月,我正式誕生,並在短短幾個月內
Thumbnail
想讓 AI 助手存取你的本地筆記、檔案或資料庫?本文從實際痛點出發,完整解析 MCP如何成為 AI 與工具溝通的標準協定。帶你打造第一個 MCP Server,讓 ChatGPT 或 Claude 能自動讀取你的個人知識庫。讓你快速掌握 AI Agent 開發的核心技術。
Thumbnail
想讓 AI 助手存取你的本地筆記、檔案或資料庫?本文從實際痛點出發,完整解析 MCP如何成為 AI 與工具溝通的標準協定。帶你打造第一個 MCP Server,讓 ChatGPT 或 Claude 能自動讀取你的個人知識庫。讓你快速掌握 AI Agent 開發的核心技術。
Thumbnail
我是一個每天都必須使用到AI的人,不得不說, AI的出現徹底改變了我的生活,然AI這個領域真的是日新月異,短短的時間,就會有新的AI工具出現,所以,當我理解到 A I Agent這個概念時,首先我就看到了Manus AI,我只能說既興奮又期待,現在就帶大家來了解,到底它有什麼能耐?
Thumbnail
我是一個每天都必須使用到AI的人,不得不說, AI的出現徹底改變了我的生活,然AI這個領域真的是日新月異,短短的時間,就會有新的AI工具出現,所以,當我理解到 A I Agent這個概念時,首先我就看到了Manus AI,我只能說既興奮又期待,現在就帶大家來了解,到底它有什麼能耐?
Thumbnail
這篇文章釐清AI與Agent的差異,說明為什麼企業真正需要的是Agent,而不是只有AI。AI如同大腦,負責理解和思考;Agent則如同手腳,負責執行任務。唯有結合AI與Agent,才能真正提升生產力。
Thumbnail
這篇文章釐清AI與Agent的差異,說明為什麼企業真正需要的是Agent,而不是只有AI。AI如同大腦,負責理解和思考;Agent則如同手腳,負責執行任務。唯有結合AI與Agent,才能真正提升生產力。
Thumbnail
AI Agent 是什麼?AI Agent 的定義 AI Agent 的中文是「AI 代理」,是一種能自動幫你完成任務的人工智慧系統。 它不只是像傳統的聊天機器人(Chatbot)一樣回答問題,而是可以自己思考、自己找資料,甚至一步一步自主完成任務。 人類只需要設定一個最終目標,AI Agen
Thumbnail
AI Agent 是什麼?AI Agent 的定義 AI Agent 的中文是「AI 代理」,是一種能自動幫你完成任務的人工智慧系統。 它不只是像傳統的聊天機器人(Chatbot)一樣回答問題,而是可以自己思考、自己找資料,甚至一步一步自主完成任務。 人類只需要設定一個最終目標,AI Agen
Thumbnail
本文探討臺灣AI Agent市場現況,比較Super 8 Studio、Omnichat和漸強實驗室三家廠商的方案,結論指出Super 8 Studio以其模組化產品、操作介面和實際應用案例,成為目前最務實且落地成功的AI Agent解決方案。
Thumbnail
本文探討臺灣AI Agent市場現況,比較Super 8 Studio、Omnichat和漸強實驗室三家廠商的方案,結論指出Super 8 Studio以其模組化產品、操作介面和實際應用案例,成為目前最務實且落地成功的AI Agent解決方案。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News