GPT-5.4 Thinking 有感升級：加入操作電腦的行列？

2026/03/06 更新2026/03/06 發佈閱讀 9 分鐘

近期 AI 界的模型更新頻率之快，已經快要跟不上了呢！就在昨天，OpenAI 正式發布了 GPT-5.4 Thinking。除了一如既往的推理能力升級之外，最重要的是Open AI首度將 工程執行 的原生能力植入大腦。

結合 EgentHub 在企業AI導入的實戰觀察來看，從去年Q4起，各AI模型積極的推動讓AI操作電腦的功能，尤其在龍蝦(ClawBot)爆紅之後，這更是成為模型商的重點發展方向，比如上個月推出的Claude Sonnet 4.6。這次，GPT-5.4 Thinking的發布，小編認為 ****可視為是對Claude Sonnet 4.6的正面迎擊，就一樣由EgentHub帶著各位讀者一起來看本次更新吧！

EgentHub限時活動：8大企業場景Agent與企業級Prompt免費送

重點整理 Takeaway

專業工作勝率達 83%： 在涵蓋 44 種職業與 9 大產業（包含會計、製造、銷售等）的 GDPval 測試中，表現已能與資深專業人士並駕齊驅。
原生「電腦使用」能力： 具備 1,024 萬像素的超高精細視覺，能像真人一樣操作滑鼠與鍵盤，OSWorld 成功率達 75.0%。
中途修正思考計畫： 首創「思考前置計畫」，使用者可在回應中途直接介入調整方向，大幅縮短修正對話的往返時間。
100 萬 Token 的極限視野： 具備「過目不忘」的深度資訊檢索能力，可處理長達數百萬行的代碼或厚重的法律合約。
精準工具搜尋 (Tool Search)： 創新的調用機制，能有效減少 47% 的 Token 消耗，解決企業連結上萬組內部 API 時的成本痛點。

看得見的思考過程：從等待結果轉向「中途導引」

GPT-5.4 Thinking 在使用者體驗上帶來了一個新設計：透明度。原先當你在對話框輸入完你的問題或需求之後，能做的往往是靜靜的等待AI思考、然後慢慢吐出一個可能錯誤的答案。

在GPT-5.4 Thinking，模型在處理複雜任務時，會先呈現一份**思考計畫（Upfront Plan），讓你在接收正式答案前可以先有快速審查的機會，**若發現在第 10 秒時 AI 的思考方向產生偏差，使用者可以立即介入「中途調整方向」，將 AI 引導至正確的脈絡。

這種互動模式尤其有助於長鏈任務，讓長任務的規劃不再如同開盲盒，而具有高度可控與協作性。此外，在面對高度特定的艱深查詢時，深度網頁搜尋與脈絡維持能力也有顯著提升，能更持久地在多輪搜尋中鎖定大海撈針式的關鍵資訊。

專業工作的霸主：44 種職業、9 大產業的全面覆蓋

根據 GDPval 測試數據，GPT-5.4 已成為目前處理知識工作最精準的模型。它不僅在 83.0% 的專業任務測試中獲勝或平手，其測試範圍更廣及銷售、會計、製造、醫療調度等多樣產業。

根據官方文件的說明，GPT-5.4在以下產業皆有卓越的表現：

金融建模： 在投資銀行初級分析師的 Excel 建模測試中，GPT-5.4 取得了 87.3% 的平均得分，顯著優於前代的 68.4%。
專業簡報： 由於具備更強的美感判斷與視覺多樣性，GPT-5.4 生成的 PPT 獲得了 68% 人類評分者的青睞。
法律實務： 在處理法律合約的 BigLaw Bench 評測中取得 91% 的高標。對於法律部門而言，這意味著它能處理長程的契約審閱，且不會遺漏任何微小的法務細節。
有效降低事實錯誤： OpenAI 特別針對「使用者回報的事實錯誤」進行優化。與 GPT-5.2 相比，GPT-5.4 在個別事實宣稱的出錯機率下降了 33%，整體回應的錯誤率則大幅降低了 18%。

數位雙手的進化：原生 4K 視覺與電腦操作能力

GPT-5.4 最震撼的突破是具備了原生的操作電腦能力，這似乎顯示聊天型AI逐漸往操作型AI轉型的趨勢。

視覺上，透過最新的 原始影像輸入細節（Original Image Input Detail） 技術，模型能看清高達 1,024 萬像素 的畫面資訊。這意味著 AI 即使面對高解析度螢幕上的微小按鈕或精細文字，也能精準識別並執行座標點擊與鍵盤輸入。

在衡量桌面導航能力的 OSWorld 測試中，GPT-5.4 取得了 75.0% 的成功率，正式超越了人類平均水平（72.4%）。

對於企業而言，即使是那些沒有開發API或是MCP的舊系統，GPT-5.4 現在也能像真人員工一樣看著螢幕、填寫報表並跑完自動化流程。

1M 上下文與「省錢版」工具搜尋

在技術底層，GPT-5.4 也加入了 100 萬 Token 超長上下文視窗陣線，現在GPT、Gemini、Claude都正式接受了百萬Token的上下文視窗，這種深度記憶力讓企業能一次處理數百份研報或整份原始碼庫而不遺忘任何細節。

另一項有趣的設計是，為了克服過去載入過多 API 定義導致的成本飆增，OpenAI 推出了工具搜尋 (Tool Search)。傳統做法是將所有工具定義一次塞給模型，就像強迫助手背下整本目錄；現在則是讓 AI 學會查目錄，只有需要時才調用特定工具。這種按需要付費的模式，能有效節省 47% 的 Token 消耗，讓企業能低成本地串接上萬個 MCP 伺服器內部 API。

程式編寫：從代碼生產到自主

GPT-5.4 繼承了 Codex 的工程基因，在 SWE-Bench Pro（工業級軟體測試）中展現出極強的穩定性。最引人注目的是全新的「Playwright (Interactive)」功能。

在官方案例中，GPT-5.4 能僅憑一則簡短指令，自主開發出一款具備 3D 物理效果與經營邏輯的「主題樂園遊戲」。更驚人的是，它會扮演開發者與測試員的雙重角色，一邊編寫網頁，一邊啟動瀏覽器進行視覺化除錯（Visual Debugging）——也就是 AI 會親自去「玩」這款遊戲，檢查路徑尋找、 happiness 指標是否運作正常，並在發現 Bug 時主動修正，實現了驚人的自主迭代能力。

定價與可用性資訊

GPT-5.4 Thinking 目前已在 ChatGPT 中取代舊有的 5.2 版本，並同步開放 API 供開發者使用。

API 定價資訊 (Per 1M Tokens)

GPT-5.4 (標準版)： 輸入 $2.50 / 輸出 $15.00。
GPT-5.4 Pro (旗艦版)： 輸入 $30.00 / 輸出 $180.00。

（註：適用於需要極限精度之科學與數學推理任務）

緩存輸入優惠： 標準版 Cached Input 僅需 $0.25，顯著降低重複請求成本。

小編的話：熟悉的大師兄回來了嗎？

在長期的使用下，小編其實對於GPT近幾個月的更新沒有感受到明顯的能力躍進，或者說有持續優化，但沒有特別印象深刻的更新。但這次 GPT-5.4 的登場，AI 已正式跨越了對話框，成為具備視覺與執行力的數位 Agent，加上一些有趣的功能更新，還是讓我為之一亮，至於實際使用效果如何，就仍需要時間來驗證了。

而從 EgentHub 的觀察來看，企業導入使用者面對長期的使用安全習慣與一定的資安保護政策，要快速接受讓AI代為操作重要系統多少有些疑慮。我們的建議是先從擁有企業AI Agent開始，讓人使用AI，讓AI調用工具，留下完整的Log讓每個行動可以被追蹤才是更為穩妥的做法。

EgentHub認為企業AI導入的關鍵是在能力與安全之間取得平衡，建立一個具備彈性的 AI 整合架構。EgentHub擁有企業級AI Agent管理平台，支援多種主流模型自由配置與強大的 MCP (Model Context Protocol) 串接能力，同時有完善的RBAC權限管理架構，讓企業AI Agent的使用更安全，企業AI導入也曾能真正落地。

EgentHub限時活動：8大企業場景Agent與企業級Prompt免費送

EgentHub 閱讀筆記AI 模型即時更新GPT

留言

EgentHub 閱讀筆記

28會員

97內容數

EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台，協助企業將知識、經驗與流程萃取並轉化爲AI SOP，打造AI Agents支援日常決策、執行與協作，已有百家企業採用，涵蓋製造、紡織、金屬加工、電子、石化等產業，每月釋放超過2,000 小時人力工時，提升營運效率與精準度。

EgentHub 閱讀筆記的其他內容

2026/03/04

GPT-5.3 Instant 深度解析：拒絕說教，情商提升

不知道是巧合還是有意狙擊其他模型商，在Gemini 3 Flash Light發布的同一天，GPT也發布了最新的GPT-5.3 Instant模型，這次更新不再只是單純追求基準測試（Benchmark）的分數，而是走回去年底的老路：對使用者體感進行優化。

2026/03/04

GPT-5.3 Instant 深度解析：拒絕說教，情商提升

2026/02/07

GPT-5.3-Codex ：OpenAI主動踏入Coding戰場

Anthropic 才剛推出強調「代理團隊」與「1M 超長上下文」的 Claude Opus 4.6，試圖統治長鏈規劃與理解。然而，OpenAI 在同日發布了 GPT-5.3-Codex，給出了截然不同的答案。讓 AI Agent企業導入專家EgentHub帶領各位讀者一起細看本次更新吧！

2026/02/07

GPT-5.3-Codex ：OpenAI主動踏入Coding戰場

2025/12/30

2025 AI模型大評比

2026倒數兩天，今年各大模型商推陳出新，模型經過了多次迭代，令人目不暇給，眼花撩亂。因此，歲末年終，由專業的AI 服務商 EgentHub為各位整理各主流模型商的旗艦/輕量模型，提供各位讀者選擇的依據吧！

2025/12/30

2025 AI模型大評比

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14