【豆漿筆記】最強 AI 怎麼比?用 Gemini 3 AI Benchmark 看懂大型語言模型能力評估

更新 發佈閱讀 7 分鐘

這篇從 Gemini 3 公布的 AI Benchmark 出發,幫你看懂 GPT、Gemini 等評估「最強 AI」的評測標準。

前言

2025 年 11 月,是我認為今年 AI 公司們煙硝味最濃的一個月。 短短幾天內,GPT-5.1、Grok 4.1、Google Gemini 3 等 AI 模型接連發表,還順便把整個產品生態一起升級。對身為使用者的我來說最想問的是:

到底哪一個 AI「最強」?

雖然我使用 AI 是為了解決問題,追求最強本身沒有意義。但我不禁想知道,每次 AI 更新時,測試是否有變得更加厲害的指標跟數值代表什麼? 在閱讀的過程中,我發現他們不是單純比較指標或者模型的知識量,而是從規劃、執行、整合多模態資訊等的整套能力切入進行討論。

所以這篇文章,我參考 Gemini 3 發布時引用的那組頂級基準測試(benchmarks)框架,並依據理解把它們分類成五個核心測驗的維度。

類別一:抽象推理與知識應用

類測模型基礎能力,當 AI 不靠外部工具時,它能否解決問題?

  • Humanitys Last Exam 人類的最後考試 / GPQA Diamond: 偏高難度學術推理與跨領域知識整合,。
  • GPQA Diamond 常被視為「理工博士級問答」的壓力測試。
  • AIME 2025 / MathArena Apex: 偏形式化推理、數學嚴謹度與多步驟解題韌性。
  • ARC-AGI-2: 用抽象圖案測 AI 是否可以有規則歸納能力,要從未見過規則中舉一反三。
  • SimpleQA Verified: 幻覺評估,確定模型記憶事實的準確度

類別二:複雜的代理行動

AI除了有知識之外,是否有實戰能力的考驗?

  • SWE-Bench Verified: 測試 AI 在軟體工程的任務中的表現,給 AI 程式碼庫與對應的 issue,模型需要產生能夠修復該問題的修補程式。
  • Terminal-Bench 2.0: 在真實終端環境中測試 AI 代理的測試工具,評估代理自主處理現實世界端到端任務的能力。
  • τ²-Bench (t2-bench): 能否使用外部工具和 API 完成任務,測試 AI 的「工具使用能力」。
  • Vending-Bench 2: 讓AI 們嘗試在現實世界做生意的指標,測試讓AI 營運販賣機。人工智慧代理商必須追蹤庫存、下訂單、設定價格並支付每日費用,這些任務單獨來看都很簡單,但隨著時間的推移,會逐漸考驗人工智慧保持穩定運行和做出智慧決策的能力極限

類別三:多模態與感知整合

現實世界的資料更多時候是:文件、截圖、圖表、影片、報表。模型能不能把這些「非結構化」變成可用的理解。

  • MMMU-Pro / Video-MMMU: MMMU(Massive Multi-discipline Multimodal Understanding),需要整合圖像/影片內容與文字問題,做出推理。
  • OmniDocBench 1.5: 偏 OCR 與文件結構還原,它測試是否可以讀得出字,且版面、結構和內容還原得像不像原始文件,而且不能胡亂改文件。
  • ScreenSpot-Pro: 測試 GUI/螢幕理解,考 AI 是否可以看懂軟體畫面截圖,並根據自然語言描述,並正確定位畫面上的目標位置或元素。
  • CharXiv Reasoning: 測驗偏複雜科研/技術圖表,比方說折線圖、熱力圖、柱狀圖等的資訊抽取與綜整能力。

類別四:長上下文與全球化

在面對實際的應用,會面對到的問題是文件超長,且語言多樣。模型是否能在這些複雜的長文裡找得到關鍵資訊呢?

  • MRCR v2 (8-needle): 名字的意思很像大海撈針,也確實如此。在超長文本裡塞幾個關鍵資訊點,看模型能不能準確取回。把文本長度推到極限長,刻意塞進少量關鍵資訊,並詢問的非常精準地對應到那些小段(針)。這些針跟後面的問題直接相關,但其他大多數內容都只是干擾。
  • MMMLU: 多語言問答能力。其中包含 14 種語言的專業翻譯測試題,包括阿拉伯語、孟加拉語、德語、西班牙語、法語、印地語、印尼語、義大利語、日語、韓語、葡萄牙語、斯瓦希里語、約魯巴語和中文。每種語言約有 15,908 個選擇題,涵蓋 57 個科目。
  • Global PIQA: 多語言常識推理基準測試,它評估跨越100種語言和文化的物理互動知識。它透過關於需要運用物理常識的日常情境的多項選擇題,測試人工智慧系統在不同文化背景下對物理世界知識的理解。

類別五:競技與效率

把模型丟進競爭、吃效率的程式題環境,測試他當一位演算法競賽選手,從 0 寫新程式且極限解題能力如何。

  • LiveCodeBench Pro: 要求模型在讀完題目描述後,自行設計演算法並輸出完整程式碼,最後丟進評測系統,檢查是否能通過所有測試資料。

結論

在 2025 年末這場技術大爆發,我們看到是一場透過AI 基準測試(AI benchmarks)展示多項能力指標的 AI 火力戰爭。 如果糾結於單一的分數,會忘記使用者真正在乎的是測驗中提到的閱讀能力、自動化、工具調度能力等等。

個人心得|為什麼突然在意最強 AI?

會突然好奇最強的AI ,有一大原因是身為GPT的長期訂閱戶,在2025年底突然發現隔壁的Germini 3 好像有點厲害啊!一時之間也沒有什麼東西可以測試看看到底有多厲害,純粹日常對話也不好感受到差異,因此乾脆來了解看看這些指標吧!

印象最深且讓我會心一笑的是這兩個指標:

  • 人類最後的考試(Humanity’s Last Exam),命名聽起來好像只要被 AI 徹底破解拿高分,人類就可以準備退休不動腦;
  • 大海撈針的 MRCR v2 (8-needle),很具象地讓我想像,AI 能不能在一大坨文字的大海裡,乖乖把那幾根針找出來。

慶幸 2025 年末,人類還是比 AI 聰明一點。可惜 AI 還不能完全取代我的工作,讓我放心放假去。

留言
avatar-img
一杯豆漿的沙龍
38會員
64內容數
閱讀使人充實,思考使人深邃 用最短的人生,擁有最多的經驗,是把人生過長的唯一方法。 Gmail: xfjioyhnplus@gmail.com
一杯豆漿的沙龍的其他內容
2025/11/20
您是否常在會議中聽到 AI、機器學習、深度學習、生成式 AI、LLM 等名詞,卻感到混淆?本文將透過由外而內的五個同心圓,清晰地解釋這些名詞的定義、彼此之間的層級關係,以及它們的學習方式(監督學習、非監督學習、強化學習)。無論您是技術背景或非技術背景,都能藉此快速釐清概念,更精準地與他人溝通。
Thumbnail
2025/11/20
您是否常在會議中聽到 AI、機器學習、深度學習、生成式 AI、LLM 等名詞,卻感到混淆?本文將透過由外而內的五個同心圓,清晰地解釋這些名詞的定義、彼此之間的層級關係,以及它們的學習方式(監督學習、非監督學習、強化學習)。無論您是技術背景或非技術背景,都能藉此快速釐清概念,更精準地與他人溝通。
Thumbnail
2025/05/02
PM 是產品經理(Product Manager)還是專案經理(Project Manager)?本篇從 PdM 與 PjM 的差異談起,延伸解析 TPM、MPM、PMM 等常見 PM 類型與職責,並介紹 PCC 這個實務中不可忽視的協作角色。這篇文章將幫助你理解各種 PM 的角色分工與適合對象。
Thumbnail
2025/05/02
PM 是產品經理(Product Manager)還是專案經理(Project Manager)?本篇從 PdM 與 PjM 的差異談起,延伸解析 TPM、MPM、PMM 等常見 PM 類型與職責,並介紹 PCC 這個實務中不可忽視的協作角色。這篇文章將幫助你理解各種 PM 的角色分工與適合對象。
Thumbnail
2025/05/01
本篇文章深入解析新產品導入流程(NPI)中的三大驗證關卡:SR、ER、PR。文章從實務經驗出發,逐一拆解每個階段的驗證重點與常見挑戰,讓初入行的工程師與 PM 不再被會議術語淹沒。無論你是剛進電子製造業,還是第一次跑打樣流程,這篇文章都能幫你建立清晰的邏輯與節奏感。
Thumbnail
2025/05/01
本篇文章深入解析新產品導入流程(NPI)中的三大驗證關卡:SR、ER、PR。文章從實務經驗出發,逐一拆解每個階段的驗證重點與常見挑戰,讓初入行的工程師與 PM 不再被會議術語淹沒。無論你是剛進電子製造業,還是第一次跑打樣流程,這篇文章都能幫你建立清晰的邏輯與節奏感。
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
創業者常因資金困境而無法抓住機會,利用房產活化讓二胎房貸成為財務策略的有力夥伴。 諮詢國峯厝好貸的二胎房貸服務,讓你的房子成為你最強力的天使投資人,推動事業成長。
Thumbnail
創業者常因資金困境而無法抓住機會,利用房產活化讓二胎房貸成為財務策略的有力夥伴。 諮詢國峯厝好貸的二胎房貸服務,讓你的房子成為你最強力的天使投資人,推動事業成長。
Thumbnail
Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。 Alpha Arena 在 2025 年10月底引起了廣泛關注,因為它率先開展了一項大型實驗,讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。
Thumbnail
Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。 Alpha Arena 在 2025 年10月底引起了廣泛關注,因為它率先開展了一項大型實驗,讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。
Thumbnail
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
當AI橫掃全球知識與產業鏈,新的權力關係正悄然重塑。 維基百科為捍衛人類編輯的智慧價值,公開呼籲AI平台「標註來源並付費支持」; OpenAI則延攬英特爾技術長Katti,布局通用人工智慧(AGI)基礎建設; 而牛津大學最新研究警示——AI性能基準測試正陷入「透明信任危機」。
Thumbnail
當AI橫掃全球知識與產業鏈,新的權力關係正悄然重塑。 維基百科為捍衛人類編輯的智慧價值,公開呼籲AI平台「標註來源並付費支持」; OpenAI則延攬英特爾技術長Katti,布局通用人工智慧(AGI)基礎建設; 而牛津大學最新研究警示——AI性能基準測試正陷入「透明信任危機」。
Thumbnail
這篇文章記錄了作者準備ITS AI國際認證的過程,內容涵蓋AI五大主題:AI問題定義、數據收集、處理與工程、AI演算法與模型、應用整合與部署以及AI的維護和監控。文章記錄了各章節的重點筆記,並包含關鍵概念的說明,例如機器學習類型、數據處理方法、常見演算法、模型評估指標、MLOps流程以及AI治理等。
Thumbnail
這篇文章記錄了作者準備ITS AI國際認證的過程,內容涵蓋AI五大主題:AI問題定義、數據收集、處理與工程、AI演算法與模型、應用整合與部署以及AI的維護和監控。文章記錄了各章節的重點筆記,並包含關鍵概念的說明,例如機器學習類型、數據處理方法、常見演算法、模型評估指標、MLOps流程以及AI治理等。
Thumbnail
從前從前科學說,左撇子的創造力較高,保守估計約佔人口10%的左撇子在創造力方面具有優勢。聽起來似乎合理的解釋。它是這樣的:你的大腦有兩個半球,一個左腦和一個右腦。 右腦被認為是狂野的,是藝術家,是那個能提出所有新可能性的半球,心理學家稱之為「發散性思考」。現在,有趣的是,你大腦的右半球控制。。。
Thumbnail
從前從前科學說,左撇子的創造力較高,保守估計約佔人口10%的左撇子在創造力方面具有優勢。聽起來似乎合理的解釋。它是這樣的:你的大腦有兩個半球,一個左腦和一個右腦。 右腦被認為是狂野的,是藝術家,是那個能提出所有新可能性的半球,心理學家稱之為「發散性思考」。現在,有趣的是,你大腦的右半球控制。。。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News