這篇從 Gemini 3 公布的 AI Benchmark 出發,幫你看懂 GPT、Gemini 等評估「最強 AI」的評測標準。
前言
2025 年 11 月,是我認為今年 AI 公司們煙硝味最濃的一個月。 短短幾天內,GPT-5.1、Grok 4.1、Google Gemini 3 等 AI 模型接連發表,還順便把整個產品生態一起升級。對身為使用者的我來說最想問的是:
到底哪一個 AI「最強」?雖然我使用 AI 是為了解決問題,追求最強本身沒有意義。但我不禁想知道,每次 AI 更新時,測試是否有變得更加厲害的指標跟數值代表什麼? 在閱讀的過程中,我發現他們不是單純比較指標或者模型的知識量,而是從規劃、執行、整合多模態資訊等的整套能力切入進行討論。
所以這篇文章,我參考 Gemini 3 發布時引用的那組頂級基準測試(benchmarks)框架,並依據理解把它們分類成五個核心測驗的維度。
類別一:抽象推理與知識應用
類測模型基礎能力,當 AI 不靠外部工具時,它能否解決問題?
- Humanitys Last Exam 人類的最後考試 / GPQA Diamond: 偏高難度學術推理與跨領域知識整合,。
- GPQA Diamond 常被視為「理工博士級問答」的壓力測試。
- AIME 2025 / MathArena Apex: 偏形式化推理、數學嚴謹度與多步驟解題韌性。
- ARC-AGI-2: 用抽象圖案測 AI 是否可以有規則歸納能力,要從未見過規則中舉一反三。
- SimpleQA Verified: 幻覺評估,確定模型記憶事實的準確度
類別二:複雜的代理行動
AI除了有知識之外,是否有實戰能力的考驗?
- SWE-Bench Verified: 測試 AI 在軟體工程的任務中的表現,給 AI 程式碼庫與對應的 issue,模型需要產生能夠修復該問題的修補程式。
- Terminal-Bench 2.0: 在真實終端環境中測試 AI 代理的測試工具,評估代理自主處理現實世界端到端任務的能力。
- τ²-Bench (t2-bench): 能否使用外部工具和 API 完成任務,測試 AI 的「工具使用能力」。
- Vending-Bench 2: 讓AI 們嘗試在現實世界做生意的指標,測試讓AI 營運販賣機。人工智慧代理商必須追蹤庫存、下訂單、設定價格並支付每日費用,這些任務單獨來看都很簡單,但隨著時間的推移,會逐漸考驗人工智慧保持穩定運行和做出智慧決策的能力極限
類別三:多模態與感知整合
現實世界的資料更多時候是:文件、截圖、圖表、影片、報表。模型能不能把這些「非結構化」變成可用的理解。
- MMMU-Pro / Video-MMMU: MMMU(Massive Multi-discipline Multimodal Understanding),需要整合圖像/影片內容與文字問題,做出推理。
- OmniDocBench 1.5: 偏 OCR 與文件結構還原,它測試是否可以讀得出字,且版面、結構和內容還原得像不像原始文件,而且不能胡亂改文件。
- ScreenSpot-Pro: 測試 GUI/螢幕理解,考 AI 是否可以看懂軟體畫面截圖,並根據自然語言描述,並正確定位畫面上的目標位置或元素。
- CharXiv Reasoning: 測驗偏複雜科研/技術圖表,比方說折線圖、熱力圖、柱狀圖等的資訊抽取與綜整能力。
類別四:長上下文與全球化
在面對實際的應用,會面對到的問題是文件超長,且語言多樣。模型是否能在這些複雜的長文裡找得到關鍵資訊呢?
- MRCR v2 (8-needle): 名字的意思很像大海撈針,也確實如此。在超長文本裡塞幾個關鍵資訊點,看模型能不能準確取回。把文本長度推到極限長,刻意塞進少量關鍵資訊,並詢問的非常精準地對應到那些小段(針)。這些針跟後面的問題直接相關,但其他大多數內容都只是干擾。
- MMMLU: 多語言問答能力。其中包含 14 種語言的專業翻譯測試題,包括阿拉伯語、孟加拉語、德語、西班牙語、法語、印地語、印尼語、義大利語、日語、韓語、葡萄牙語、斯瓦希里語、約魯巴語和中文。每種語言約有 15,908 個選擇題,涵蓋 57 個科目。
- Global PIQA: 多語言常識推理基準測試,它評估跨越100種語言和文化的物理互動知識。它透過關於需要運用物理常識的日常情境的多項選擇題,測試人工智慧系統在不同文化背景下對物理世界知識的理解。
類別五:競技與效率
把模型丟進競爭、吃效率的程式題環境,測試他當一位演算法競賽選手,從 0 寫新程式且極限解題能力如何。
- LiveCodeBench Pro: 要求模型在讀完題目描述後,自行設計演算法並輸出完整程式碼,最後丟進評測系統,檢查是否能通過所有測試資料。
結論
在 2025 年末這場技術大爆發,我們看到是一場透過AI 基準測試(AI benchmarks)展示多項能力指標的 AI 火力戰爭。 如果糾結於單一的分數,會忘記使用者真正在乎的是測驗中提到的閱讀能力、自動化、工具調度能力等等。
個人心得|為什麼突然在意最強 AI?
會突然好奇最強的AI ,有一大原因是身為GPT的長期訂閱戶,在2025年底突然發現隔壁的Germini 3 好像有點厲害啊!一時之間也沒有什麼東西可以測試看看到底有多厲害,純粹日常對話也不好感受到差異,因此乾脆來了解看看這些指標吧!
印象最深且讓我會心一笑的是這兩個指標:
- 人類最後的考試(Humanity’s Last Exam),命名聽起來好像只要被 AI 徹底破解拿高分,人類就可以準備退休不動腦;
- 大海撈針的 MRCR v2 (8-needle),很具象地讓我想像,AI 能不能在一大坨文字的大海裡,乖乖把那幾根針找出來。
慶幸 2025 年末,人類還是比 AI 聰明一點。可惜 AI 還不能完全取代我的工作,讓我放心放假去。



























