AI模型持續更新:OpenAI GPT-5.4 與 Google Gemini 3.1 Flash Lite

更新 發佈閱讀 11 分鐘

2026 年 3 月剛開始短短幾天內,兩大人工智慧巨頭相繼發布了各自的最新一代模型。Google 推出了極致追求速度與成本效益的 Gemini 3.1 Flash Lite,而 OpenAI 則正式公開了具備強大原生電腦操作能力與推理深度的 GPT-5.4。

這次OpenAI 的 GPT-5.4 展現了跨越軟體介面、自主操作滑鼠與鍵盤、並能執行長程複雜任務的「代理 (Agent)」能力,宛如一位可以獨立作業的專業白領員工。另一方面,Google 的 Gemini 3.1 Flash Lite 則透過極致的成本壓縮與反應速度,讓高強度的認知運算變得便宜且無所不在,專注於解決大規模、高頻繁的企業級基礎設施需求。

GPT-5.4 與 Gemini 3.1 Flash Lite 更新懶人包

OpenAI GPT-5.4:專為專業工作打造的全能數位代理

  • 產品定位:結合最高階推理、程式編寫 (承襲 GPT-5.3-Codex) 與代理工作流的前沿模型。
  • 核心突破:首款具備原生「電腦操作能力 (Computer-Use)」的通用模型,能透過截圖與座標點擊來控制桌面應用程式與網頁。
  • 上下文長度:支援高達 100 萬 (1M) 個 Token 的上下文視窗。
  • 全新技術架構:導入「工具搜尋 (Tool Search)」,捨棄過去將所有工具定義塞入提示詞的做法,改為動態查找,大幅節省 47% 的 Token 消耗。
  • 視覺解析度:原生支援高達 1024 萬像素的超高解析度圖片輸入,確保精準辨識複雜的軟體介面與密集文字。
  • 定價策略 (API):標準版 GPT-5.4 為每百萬輸入 Token 2.50 美元,輸出 15 美元。最高階的 GPT-5.4 Pro 版本則為每百萬輸入 30 美元,輸出 180 美元。
  • 發布狀態:取代 ChatGPT 中的 GPT-5.2 Thinking 模型,並同步開放於 API 與 Codex 平台。

Google Gemini 3.1 Flash Lite:主打極速引擎

  • 產品定位:Gemini 3 系列中速度最快、最具成本效益的模型,專為開發者處理高頻寬、大規模任務而生。
  • 核心突破:在維持極低成本的前提下,提供超越上一代中型模型的推理與多模態理解能力,並標配「思考層級 (Thinking Levels)」調整功能。
  • 速度表現:首字回應時間 (Time to First Answer Token) 比上一代 2.5 Flash 快上 2.5 倍,輸出速度提升 45%。
  • 定價策略 (API):每百萬輸入 Token 僅需 0.25 美元,每百萬輸出 Token 僅需 1.50 美元。
  • 發布狀態:目前已透過 Google AI Studio 的 Gemini API 以及 Vertex AI 提供開發者與企業預覽。

GPT-5.4 的「深度代理」與 Gemini 3.1 Flash-Lite 的「規模化極速」

raw-image

Introducing GPT‑5.4

OpenAI GPT-5.4:打破軟體邊界的「電腦操作能力」與「工具搜尋」

在 OpenAI 的發布中,最引人注目的莫過於其原生的電腦操作能力 (Computer use and vision)。過去的模型主要依賴文字 API 與外部系統溝通,但現實世界中,無數的傳統軟體、企業內部系統或特定網頁並沒有提供完美的 API 介面。GPT-5.4 的解法是:直接讓模型「看」著螢幕並操作滑鼠與鍵盤。

這項能力建立在極致的視覺感知升級上。GPT-5.4 在 OmniDocBench (測試文件解析錯誤率) 將錯誤率降至 0.109。這意味著模型能夠閱讀極為密集的 Excel 報表或複雜的 ERP 軟體介面。在 OSWorld-Verified 這個嚴格測試模型透過截圖與鍵盤滑鼠導覽桌面環境的基準測試中,GPT-5.4 達到了 75.0% 的成功率,不僅遠超前一代 GPT-5.2 的 47.3%,甚至超越了人類表現的 72.4%。這代表著,只要是你能在螢幕上完成的操作,GPT-5.4 已經具備了同等甚至更佳的執行能力。

此外,OpenAI 提出了一個解決模型「上下文臃腫」的系統工程方案:工具搜尋 (Tool Search)。以往開發者若希望 AI 成為超級助理,必須在每一次請求中,將成千上萬個內部 API 的「說明書」全部放入上下文視窗。這不僅拖慢速度,更造成巨額的 Token 成本。GPT-5.4 改變了這個機制,它只接收一個輕量化的「可用工具清單」。當模型在推理過程中發現需要某個工具時,它會主動去「搜尋」該工具的詳細定義並載入。根據 OpenAI 的測試,在開啟所有 36 個 MCP (Model Context Protocol) 伺服器的情況下,這項技術在維持同等準確率的同時,大幅減少了 47% 的 Token 使用量。這讓代理程式 (Agent) 能夠在擁有數萬個工具的龐大生態系中靈活運作,而不會因為承載過多資訊而崩潰或變得昂貴。

raw-image

Gemini 3.1 Flash-Lite: Built for intelligence at scale

Google Gemini 3.1 Flash Lite:將高階推論平民化的「速度革命」

如果說 OpenAI 是挑戰模型電腦操作能力的上限,那麼 Google 的 Gemini 3.1 Flash Lite 則是在挑戰服務的邊際成本下限。

在目前的市場環境中,開發者面臨的最大挑戰之一就是延遲 (Latency)。當一個應用程式需要根據使用者的即時輸入來生成複雜的 UI 介面,或是需要對大量用戶發文進行即時的內容審核時,模型哪怕只有兩秒鐘的遲疑,都會造成極差的使用者體驗。Gemini 3.1 Flash Lite 將首字回應時間大幅縮短了 2.5 倍。這種低延遲特性,使其成為建構高頻率、即時互動體驗的理想選擇。

更令人矚目的是其定價結構:每百萬輸入 Token 僅需 0.25 美元。相較於頂級前沿模型動輒數十美元的定價,Gemini 3.1 Flash Lite 的價格幾乎可以用「微不足道」來形容。然而,低價並沒有大幅犧牲其智力水準。在多項關鍵指標上,它超越了上一代的 2.5 Flash 較大模型,例如在考驗多模態理解的 MMMU Pro 測試中取得了 76.8% 的成績。

Google 這次的一大亮點是將「思考層級 (Thinking levels)」設定為此 Lite 級別模型的標準配備。這賦予了開發者極大的彈性:面對簡單的翻譯任務,可以將思考層級調低以追求極致速度;而面對需要深入邏輯分析的模擬生成或儀表板排版任務,則可以要求模型多花一點運算資源進行深度思考。這種將運算力「按需分配」的設計,契合了企業在真實商業場景中對成本與效能的精算需求。

軟體開發測試的自動化與即時生成體驗的爆發

軟體開發測試的自動化

在 OpenAI 的展示中,有一個極具代表性的實驗性功能:「Playwright (Interactive)」。這項功能讓 Codex 能夠「視覺化地」對網頁與應用程式進行除錯。展示影片中,模型只收到了一段文字提示,要求建立一個包含遊樂設施、遊客路徑尋找、清潔度與財務管理系統的「主題樂園模擬遊戲」。GPT-5.4 不僅寫出了程式碼,還自動呼叫 Playwright 進行瀏覽器遊玩測試。它能夠在畫面中佈置道路、觀察遊客是否正確導航,並根據遊戲畫面的視覺回饋來驗證 UI 數據是否正確更新。

這對軟體工程將產生深遠影響。未來的 QA (品質保證) 工程師與前端開發者,將不再需要手動撰寫繁瑣的 Selenium 或 Playwright 測試腳本。你只需要用自然語言告訴 AI:「請幫我跑一遍購物車結帳流程,確認信用卡錯誤提示有沒有跳出來。」AI 就會像真人測試員一樣,看著螢幕、點擊按鈕,並回報視覺與功能上的缺失。Cursor 平台副總裁 Lee Robinson 提到,GPT-5.4 在處理模糊問題時表現得更加自然且堅定,不再反覆猶豫,這種特質將大幅加速產品的迭代週期。

即時生成體驗的爆發

在消費端,Google Gemini 3.1 Flash Lite 的極低成本與超高速度,將催生出一批過去因為「算力太貴」而無法實現的商業模式。

想像一個電子商務平台,當你瀏覽頁面時,平台可以根據你過去的喜好、當下的天氣以及最新的庫存,在幾百毫秒內,透過 3.1 Flash Lite 即時生成一個完全為你客製化的商品推薦介面 (包含動態排版與即時生成的文案)。由於 API 呼叫成本降至每百萬 Token 僅 0.25 美元,企業可以毫無顧忌地在每一個用戶互動的微小節點中都嵌入人工智慧,這將讓未來的軟體服務變得無比貼心且反應靈敏。

TN科技筆記的觀點

我們從這兩家公司的發布中看到一個一致的趨勢,那就是「思考 (Thinking)」過程的商品化與可控化。無論是 OpenAI 將 GPT-5.4 Thinking 在遇到複雜問題時主動列出思考計畫,還是 Google 讓開發者可以在極輕量的 3.1 Flash Lite 中手動調整「Thinking levels」,現在模型變成了一個具有「認知離合器」的引擎。開發者終於可以精細地控制他們的 API 帳單,為困難的數學題購買「深度思考」,為簡單的文字過濾「直覺反射」等等,針對不同需求設計更加細緻的服務體驗。

而當一個 AI 具備強大的電腦操作能力、程式編寫能力,且能夠持續性地在網路上搜尋資訊,它同時也成為了一個完美的自動化滲透測試工具,甚至可能被惡意利用於網路攻擊。OpenAI 在系統卡中明確將 GPT-5.4 標示為具有「高度網路安全能力 (High cyber capability)」,並持續研究思維鏈 (CoT) 的可控性以防止模型隱藏其意圖。雖然目前模型的防禦機制正在完善,但當具備代理能力的 AI 普及化後,企業的資安防禦邊界將面臨前所未有的壓力。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)


留言
avatar-img
TN科技筆記(TechNotes)的沙龍
70會員
228內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2026/03/04
Sakana AI 推出革命性技術 Doc-to-LoRA 與 Text-to-LoRA,透過超網路瞬間將超長文件與任務指令壓縮為輕量化 LoRA 記憶晶片。TN科技筆記用最生活化的類比,帶您深度解析這項突破上下文長度極限、免除龐大快取負擔的底層技術,掌握未來 AI 發展的關鍵趨勢!
2026/03/04
Sakana AI 推出革命性技術 Doc-to-LoRA 與 Text-to-LoRA,透過超網路瞬間將超長文件與任務指令壓縮為輕量化 LoRA 記憶晶片。TN科技筆記用最生活化的類比,帶您深度解析這項突破上下文長度極限、免除龐大快取負擔的底層技術,掌握未來 AI 發展的關鍵趨勢!
2026/03/02
機器人訓練資料太貴怎麼辦?NVIDIA 最新發布的 DreamDojo 機器人世界模型,透過分析 4.4 萬小時的人類影片並結合潛在動作技術,讓 AI 掌握物理直覺。本文深度解析 DreamDojo 的核心架構、即時蒸餾技術,以及它如何改變通用機器人訓練的未來發展。
Thumbnail
2026/03/02
機器人訓練資料太貴怎麼辦?NVIDIA 最新發布的 DreamDojo 機器人世界模型,透過分析 4.4 萬小時的人類影片並結合潛在動作技術,讓 AI 掌握物理直覺。本文深度解析 DreamDojo 的核心架構、即時蒸餾技術,以及它如何改變通用機器人訓練的未來發展。
Thumbnail
2026/02/25
2026年初軟體股大跌引發市場恐慌,但 AI 正在重塑企業軟體底層價值。TN科技筆記深入解析 Anthropic 的 Claude Code 如何打破 COBOL 現代化的高昂成本,並透過 Claude Code Security 找出超過 500 個隱藏漏洞,重新定義企業資安與技術債的未來。
Thumbnail
2026/02/25
2026年初軟體股大跌引發市場恐慌,但 AI 正在重塑企業軟體底層價值。TN科技筆記深入解析 Anthropic 的 Claude Code 如何打破 COBOL 現代化的高昂成本,並透過 Claude Code Security 找出超過 500 個隱藏漏洞,重新定義企業資安與技術債的未來。
Thumbnail
看更多