GPT-5.3-Codex :OpenAI主動踏入Coding戰場

EgentHub 閱讀筆記-avatar-img
發佈於AI Agent 個房間
更新 發佈閱讀 8 分鐘

Anthropic 才剛推出強調「代理團隊」與「1M 超長上下文」的 Claude Opus 4.6,試圖統治長鏈規劃與理解。然而,OpenAI 在同日發布了 GPT-5.3-Codex,給出了截然不同的答案:OpenAI 選擇讓 AI做得更精確

值得注意的是,這次OpenAI主動踏入Anthropic長期領導的code戰場,究竟能否取得自己的一席之地呢?讓 AI Agent企業導入專家EgentHub帶領各位讀者一起細看本次更新吧!

EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送

重點整理 Takeaway

  • 從coding到agent:結合了 GPT-5.2 的深度推理大腦與 5.2-Codex 的工程執行雙手,這是一個具備 Agentic Capability 的模型。它不僅處理代碼,還能操作工具、進行研究並執行長達數日的複雜流程,且執行速度提升了 25%Token 消耗量更顯著降低,代表開發效率與成本的雙重優化。
  • 基準測試領先:在「xhigh」高強度推理模式下,GPT-5.3-Codex 在 SWE-Bench Pro(涵蓋四種語言的工業級測試)與 Terminal-Bench 2.0 均創下業界新高,展現出操作終端機(CLI)與解決現實世界軟體工程問題的精準度。
  • Codex macOS 專屬應用程式:全新的桌面指揮中心正式亮相。透過獨創的工作樹(Work Tree)機制與技能(Skills)系統,讓 AI 能並行處理多項任務,並直接與 Figma、Linear、Cloudflare 等企業工具串接。
raw-image

前言:AI 戰局的新節點,當「大腦」遇上「雙手」

對於專業人士來說,GPT-5.3-Codex 的意義在於它跨越了「對話框」。這是一個能直接在電腦上操作 UI、管理部署、甚至協助開發者除錯的「數位同事」。最具洞察力的細節是,OpenAI 的 Codex 團隊透露,他們在開發 GPT-5.3-Codex 的過程中,就已經在運用其早期版本來針對訓練流程除錯、管理部署與診斷測試結果。這種「AI 打造自身」的模式,證明了該模型在現實生產環境中已具備極高的成熟度。


「大腦」與「雙手」的結合

GPT-5.3-Codex 與一般的 GPT-5.2 有什麼不同?簡單來說,它是「最強大腦」與「頂尖雙手」的完美結合。它整合了 GPT-5.2 的跨領域專業推理能力,並繼承了 5.2-Codex 的工程效能。

這樣的結合賦予了它強大的智慧體能力(Agentic Capability),它不再是冷冰冰地吐出代碼,而是像一位資深同事,在執行任務時會主動提供進度更新,並在遇到決策模糊地帶時與你互動討論,引導你做出正確判斷,而不會失去既有的工作脈絡。


基準測試表現:xhigh 推理強度下的硬實力

在專業評測中,GPT-5.3-Codex 的表現大幅領先,且所有數據均是在 「xhigh」推理強度 下達成:

  • 軟體工程實力:在 SWE-Bench Pro 測試中,GPT-5.3-Codex 達到了 56.8% 的新高。這項測試比以往更具權威性,因為它不再只測 Python,而是涵蓋四種語言,並具備高度抗污染性與實務應用性,證明模型能處理真實世界的軟體情境。
  • 極致的終端操作:在 Terminal-Bench 2.0(評估編碼Agent的 CLI 操作精準度)中,得分高達 77.3%,遠超前代與競爭對手,代表它在操作命令行時幾乎不失誤。
  • 跨領域任務執行
    • OSWorld-Verified:在視覺化桌面環境中,模型透過視覺判斷完成各種生產力任務,得分達 64.7%,遠勝過往模型。
    • GDPval :在涵蓋金融顧問、資料科學家等 44 種專業職業任務的測試中,GPT-5.3-Codex 的表現(70.9%)已能與純推理模型 GPT-5.2 並駕齊驅,能精準建立複雜的簡報、試算表與專業報告。

網頁開發與實作:從零到一的自我迭代

這次更新最令人驚艷的,小編覺得是GPT-5.3-Codex 展現了驚人的自主迭代能力。以OpenAI官方的文件案例來說:

  • 在開發賽車遊戲時,它不僅僅是寫代碼,而是自主建構了一個具備 8 張地圖、3D Voxel 物理效果與道具系統的複雜系統。
  • 在製作潛水遊戲時,模型甚至能理解氧氣管理、壓力感應與魚類收集等複雜機制。過程中,它同時扮演設計師與 QA,透過「實際玩遊戲」來驗證並修正 Bug。

另一項特性是它對模糊意圖的捕捉,在建立登錄頁面 的案例中:

  • 美感自動化:即使提示詞簡短,它也能自動套用紫藍漸層、玻璃質感卡片等 SaaS 流行美學。
  • 商業邏輯理解:它會自動將年度方案換算為折扣後的月費,而非單純平均分攤,更主動生成具備動態效果的客戶見證輪播,讓產出物直接達到可上線水準。
  • 極高效能:完成這些複雜任務所消耗的 Token 數量更少,這對企業來說代表了更低的營運成本。

raw-image

Codex 應用程式:你的智慧體指揮中心

為了讓這些能力落地,OpenAI 甚至為 macOS 打造了 Codex 桌面應用程式

  • 多智慧體協作與工作樹(Work Tree): 這對專業人士非常有感。你可以想像「工作樹」讓你在處理專案時,能同時開啟三個不同的「分身克隆」。三個智慧體可以同時在同一個代碼庫的不同副本上,並行嘗試三種不同的技術路徑,且互不衝突,讓你能在最終決定前預覽三種結果。
  • 擴展技能(Skills)與自動化:Codex能與多種應用進行深度串接,同時,你也可以設定排程,讓 Codex 在背景自動執行「每日問題分類」、「CI 失敗調查」或「生成發布摘要」,讓重複性工作不再佔用你的腦力。
  • 個性化協作風格: 延續GPT5.2的風格,你可以透過 /personality 指令,在「精簡務實」與「具同理心對話」之間切換,讓 AI 的語氣完美契合你的團隊文化。

企業如何擁抱「智慧體時代」?

GPT-5.3-Codex 的出現,讓AI能同時給建議與動手做,縮小了模型智力與實際業務應用之間的落差,從AI Agent企業導入顧問 EgentHub的角度來看,在 2026 年,一個不支援 MCP (Model Context Protocol) 串接、無法靈活配置多模型的平台,基本上就是將企業的數位勞動力邊緣化。

EgentHub 作為專業的 AI Agent 管理平台,除了提供完善權限控管,與多種資料種類RAG的AI Agent平台之外,我們也提供完善的工具串接機制與MCP功能,讓 AI 真正走入企業流程。別讓技術紅利與你的企業擦身而過。現在就透過 EgentHub,將AI Agent轉化為你的企業競爭核心,讓 AI 落地,開啟智慧體協作的新篇章。

EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送
留言
avatar-img
EgentHub 閱讀筆記
27會員
94內容數
EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台,協助企業將知識、經驗與流程萃取並轉化爲AI SOP,打造AI Agents支援日常決策、執行與協作,已有百家企業採用,涵蓋製造、紡織、金屬加工、電子、石化等產業,每月釋放超過2,000 小時人力工時,提升營運效率與精準度。
EgentHub 閱讀筆記的其他內容
2026/02/06
2026 年 2 月 5 日,Anthropic 正式向全球發布了最新一代旗艦模型:Claude Opus 4.6。身為 Anthropic 家族中「最聰明」的代表,Opus 4.6 的回歸不單是為了奪回效能榜首,更是針對複雜編碼、自主規劃與長鏈任務的一次深度進化。
Thumbnail
2026/02/06
2026 年 2 月 5 日,Anthropic 正式向全球發布了最新一代旗艦模型:Claude Opus 4.6。身為 Anthropic 家族中「最聰明」的代表,Opus 4.6 的回歸不單是為了奪回效能榜首,更是針對複雜編碼、自主規劃與長鏈任務的一次深度進化。
Thumbnail
2026/02/05
提示詞怎麼寫?Prompt怎麼優化?我的Agent怎麼都不太穩定? 2026 最新提示詞撰寫技巧大公開!不要再看過時的提示詞教學了!EgentHub結合實務經驗,從寫提示詞的心法、技巧到修正一次到位,再贈送8大企業場景Agent與提示詞模板,給你從了解到實作的完整歷程,成為提示詞專家!
Thumbnail
2026/02/05
提示詞怎麼寫?Prompt怎麼優化?我的Agent怎麼都不太穩定? 2026 最新提示詞撰寫技巧大公開!不要再看過時的提示詞教學了!EgentHub結合實務經驗,從寫提示詞的心法、技巧到修正一次到位,再贈送8大企業場景Agent與提示詞模板,給你從了解到實作的完整歷程,成為提示詞專家!
Thumbnail
2026/01/14
NVIDIA 創辦人暨執行長黃仁勳在 CES 的主題演講,除了發布了一系列新產品,也為人工智慧的下一個十年,揭示了一幅清晰的發展藍圖。接續其2025的演講,AI經過2025一年的發展,距離Agentic AI的時代又近了一步,也開始朝向物理 AI (Physical AI)進行嘗試。
Thumbnail
2026/01/14
NVIDIA 創辦人暨執行長黃仁勳在 CES 的主題演講,除了發布了一系列新產品,也為人工智慧的下一個十年,揭示了一幅清晰的發展藍圖。接續其2025的演講,AI經過2025一年的發展,距離Agentic AI的時代又近了一步,也開始朝向物理 AI (Physical AI)進行嘗試。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
這篇文章深入剖析 Sam Altman 在訪談中的核心 AI 戰略與產品洞察,重點闡述了從「被動對話框」演進至「主動代理人」的範式轉移、算力作為商業天花板的重要性、「個性化記憶」取代「模型 IQ」成為產品護城河,並為產品團隊提供了鎖定垂直領域、重構流程、實驗主動回報與個性化記憶的實務建議。
Thumbnail
這篇文章深入剖析 Sam Altman 在訪談中的核心 AI 戰略與產品洞察,重點闡述了從「被動對話框」演進至「主動代理人」的範式轉移、算力作為商業天花板的重要性、「個性化記憶」取代「模型 IQ」成為產品護城河,並為產品團隊提供了鎖定垂直領域、重構流程、實驗主動回報與個性化記憶的實務建議。
Thumbnail
麥肯錫報告説,未來工作將由人類、AI Agent與機器人三者合作組成。AI在技術上可自動化美國57%的總工作時數,但情感理解、現場判斷等43%的工作無法被取代。工作將被「重塑」,而非取代,人類需將精力轉移到需要判斷力、道德觀和人際關係的領域,並發展「AI流利度」。
Thumbnail
麥肯錫報告説,未來工作將由人類、AI Agent與機器人三者合作組成。AI在技術上可自動化美國57%的總工作時數,但情感理解、現場判斷等43%的工作無法被取代。工作將被「重塑」,而非取代,人類需將精力轉移到需要判斷力、道德觀和人際關係的領域,並發展「AI流利度」。
Thumbnail
麥肯錫報告指出,汽車金融業營運成本高,可透過導入「AI代理」降低5%至8%的成本。介紹四種AI Agent應用場景:再行銷專員、客服專員、採購專員、動態定價高手。AI Agent能獨立思考、執行任務,涵蓋二手車處理、客戶服務與內部稽核、車輛生命週期價值評估,能做到超精準定價,協助企業提高效率與利潤。
Thumbnail
麥肯錫報告指出,汽車金融業營運成本高,可透過導入「AI代理」降低5%至8%的成本。介紹四種AI Agent應用場景:再行銷專員、客服專員、採購專員、動態定價高手。AI Agent能獨立思考、執行任務,涵蓋二手車處理、客戶服務與內部稽核、車輛生命週期價值評估,能做到超精準定價,協助企業提高效率與利潤。
Thumbnail
Felo AI 搜尋代理結合對話式搜尋與多語言支持,能快速整理知識、生成摘要與翻譯。不僅能提升市場分析、風險評估、技術可行性研究等工作的效率,還能自動產出結構化報告與簡報,幫助研究人員與團隊更快獲得洞察並轉化為可行行動。
Thumbnail
Felo AI 搜尋代理結合對話式搜尋與多語言支持,能快速整理知識、生成摘要與翻譯。不僅能提升市場分析、風險評估、技術可行性研究等工作的效率,還能自動產出結構化報告與簡報,幫助研究人員與團隊更快獲得洞察並轉化為可行行動。
Thumbnail
本文比較OpenAI、Claude、Perplexity三大AI搜尋API(web search),包含規格、串接方式、重要參數、使用限制。本文將以Python 為例,助你整合LLM與網路搜尋 web search 能力。
Thumbnail
本文比較OpenAI、Claude、Perplexity三大AI搜尋API(web search),包含規格、串接方式、重要參數、使用限制。本文將以Python 為例,助你整合LLM與網路搜尋 web search 能力。
Thumbnail
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
如何讓自己的資料被 ChatGPT 或其他 AI 模型引用。 以下是一些重點總結: 如何讓你的資料成為 ChatGPT 的「訓練語料」 1. 允許爬蟲抓取: * 確保你的網站在 robots.txt 中允許爬蟲抓取。 2. 發布到高權重網站: * 將內容發佈到 Medium、
Thumbnail
如何讓自己的資料被 ChatGPT 或其他 AI 模型引用。 以下是一些重點總結: 如何讓你的資料成為 ChatGPT 的「訓練語料」 1. 允許爬蟲抓取: * 確保你的網站在 robots.txt 中允許爬蟲抓取。 2. 發布到高權重網站: * 將內容發佈到 Medium、
Thumbnail
簡介 《What Are AI Agents?》由 Benjamin Labaschin 撰寫,旨在解釋人工智慧代理(AI Agents)的概念、技術運作原理,以及它們如何運用在實際生活與工作的情境中。該書重點闡述了大型語言模型(LLMs)與 AI 代理的關係,並深入探討這些代理如何在文件問答、聊
Thumbnail
簡介 《What Are AI Agents?》由 Benjamin Labaschin 撰寫,旨在解釋人工智慧代理(AI Agents)的概念、技術運作原理,以及它們如何運用在實際生活與工作的情境中。該書重點闡述了大型語言模型(LLMs)與 AI 代理的關係,並深入探討這些代理如何在文件問答、聊
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News