📝📝：測驗拿很高，現實卻無感｜AI 基準值測試仍與現實世界的複雜度不符

鋼哥

更新於 2025/04/11發佈於 2025/04/11閱讀時間約 4 分鐘

Nguyen Dang Hoang Nhu on Unsplash

AI 基準測試歷來無法捕捉現實世界中的複雜性，特別是針對 AI 系統可能執行的任務。

本文翻譯自 Epoch AI 的報告《The real reason AI benchmarks haven’t reflected economic impacts》

AI 基準測試（Benchmark）歷來無法捕捉現實世界中的複雜性，特別是針對 AI 系統可能執行的任務，經常導致對 AI 當前能力和未來影響產生誤導性結論。

這種脫節並非僅僅是疏忽，而是反映了 AI 研究中更深層次的優先事項，這些優先事項也隨著 AI 能力本身的發展而演變。

AI 基準測試的歷史演進

AI 基準測試隨著時間不斷演進，反映出當代 AI 模型的能力。這種演進目前可歸類為三個主要階段：

2017 年之前：基本簡易任務

早期的 AI 基準著重於簡單直接的任務，例如圖像分類 (例如 ImageNet、CIFAR-100) 和情感分析。

＊ImageNet 專案是一個大型視覺資料庫，用於視覺目標辨識軟體研究。該專案已手動標記了 1400 多萬張圖像，以指出圖片中的物件，包含兩萬多個典型類別，例如「氣球」或「草莓」，每一類包含數百張圖像。

這些基準提供了明確的評估指標，但無法反映真實世界任務的複雜性。

ImageNet 專案

2018–2021: 多選題與開放式文字產生

多項選擇題作答和簡單文字產生基準的引入擴展了 AI 評估方法。

CommonSenseQA 和 MMLU 等基準測量了更廣泛的 AI 能力，但仍然依賴於結構化、人工化的場景。

＊MMLU（大規模多任務語言理解）是一個用來衡量大型語言模型在大量不同主題上的多任務準確性的基準。涵蓋了 57 個不同的任務，包括：基礎數學、美國歷史、電腦科學、法律等等。

2021 年後：真實世界任務表現的嘗試

最近的基準，包括 SWE-Bench 和 RE-Bench，嘗試在更真實的環境中評估 AI。

儘管有這些進展，這些基準通常會簡化真實世界的複雜性，以確保評估性。

＊SWE-Bench（Software Engineering Benchmark）是一個專門設計用來評估大型語言模型（LLMs）在解決真實世界軟體工程問題能力上的基準。SWE-Bench 與 MMLU 關注廣泛的學科知識不同，SWE-Bench 更聚焦於程式設計和軟體開發的特定技能。

Florian Olivo on Unsplash

這些基準通常會簡化真實世界的複雜性，以確保評估性。

優先考慮「恰好可及」的任務

基準測試創建者歷來並非優先考慮現實世界的完整呈現，而是專注於開發「恰好可及」當代 AI 能力的測試。這種方法有幾個目的：

提供訓練信號

太容易或太難的基準測試，不會為改進 AI 模型提供有用的反饋。處於當前能力邊緣的任務提供最具生產力的訓練信號。

實現模型比較

．為了比較不同模型的相對性能，完全現實（practical）的任務並不是首要的考量，反而需要「分數差異」與「能力差異」相關的基準測試。

低估 AI 的進展

．許多研究人員沒有預料到 AI 能力會如此迅速進步，導致他們設計了更簡單的基準測試作為現實世界任務的代理。

展示令人印象深刻的成果

基準測試經常優先考慮對人類具挑戰性的任務（如圍棋或科學多項選擇題），以便在 AI 成功時創造令人眼睛為之一亮的演示，即使人類難題不一定與 AI 難題一致。

現實主義限制並非約束因素

現實世界的限制並非是創建更實際基準測試的主要障礙。

2021年的 HumanEval 基準測試包含短小自包含的編碼問題，而非後來基準測試如 SWE-Bench 中更實際的任務。原因並非 SWE-Bench 在早期不可能創建，只是對當時的模型而言「超出能力範圍」。

National Cancer Institute null on Unsplash

基準測試經常優先考慮對人類具挑戰性的任務（如圍棋或科學多項選擇題）。

如今，基準測試設計面臨著相互競爭的力量：

推動現實主義

隨著 AI 系統變得越來越有能力並在各經濟部門部署，研究人員有更強的動機開發能捕捉現實世界經濟影響的基準測試。

實際挑戰

創建真正現實的基準測試涉及許多實際和基本障礙。例如，RE-Bench 不得不簡化機器學習任務環境以便於性能驗證，犧牲了實際研究環境的一些複雜性。

對理解 AI 進展的影響

這種張力如何解決對我們準確評估 AI 進展和為未來影響做準備的能力有重大影響。基準測試是否會繼續朝著更大現實主義演變或仍受實際限制約束，這仍是一個懸而未決的問題，將塑造我們對 AI 發展的理解。

基準測試性能與現實世界能力之間的脫節不僅僅是一個學術問題 — 它直接影響我們如何感知、準備和應對 AI 的進步。

社會人的哲學沉思

115會員

245內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

留言

留言分享你的想法！

社會人的哲學沉思的其他內容

🎥🎞️📝紅藥丸可以拯救「非自願單身」的男性？《混沌少年時》呈現紅藥丸對青少年的風險

《混沌少年時》的敘事主題之一正是「紅藥丸」。男性如何成為非自願單身者，以及紅藥丸如何榨取寂寞商機。劇中的傑米，也是紅藥丸的影響才犯下如此駭人的罪刑。

5/5混沌少年時（Adolescence）

#青少年 #男性 #少年

📝📝：為什麼 Apple 的 AI 產品總是落後一步？｜AI 需要快速推陳出新，Apple 卻是認真打磨

AI 的創新速度驚人，而且通常是以軟體為導向。AI 關係到迭代改進、功能的快速部署、用戶反饋環路以及大膽的實驗。在這個領域中，遲到不只可能會錯失機會，也可能意味著錯過整個浪潮。

#科技 #資訊 #數據

📝📝：AI 生成的科學論文首度通過同行審查｜AI 科學家 v2 將導入加速科學界的研究

由 AI 科學家（The AI Scientist V2）完全生成的一篇論文成功通過了 2025 年國際學習表徵會議（ICLR）研討會的同行評審過程。

#科技 #數據 #資訊

🎥🎞️📝紅藥丸可以拯救「非自願單身」的男性？《混沌少年時》呈現紅藥丸對青少年的風險

5/5混沌少年時（Adolescence）

#青少年 #男性 #少年

📝📝：為什麼 Apple 的 AI 產品總是落後一步？｜AI 需要快速推陳出新，Apple 卻是認真打磨

#科技 #資訊 #數據

📝📝：AI 生成的科學論文首度通過同行審查｜AI 科學家 v2 將導入加速科學界的研究

由 AI 科學家（The AI Scientist V2）完全生成的一篇論文成功通過了 2025 年國際學習表徵會議（ICLR）研討會的同行評審過程。

#科技 #數據 #資訊

你可能也想看

Google News 追蹤

方格子 vocus 官方沙龍

2025/04/10

限時 9 折！精選投資理財沙龍推薦｜大盤動盪，知識進場

【vocus 精選投資理財/金融類沙龍，輸入 "moneyback" 年訂閱 9 折】市場動盪時，加碼永遠值得的投資標的——「自己」川普政府再度拋出關稅震撼彈，全球市場應聲重挫，從散戶到專業投資人，都急著找尋買進殺出的訊號，就是現在，輪到知識進場！把握時機讓自己升級，別放過反彈的機會！

AI生成圖片是一個挑戰性的任務，雖然AI能理解文字需求，但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成，而加入擬人化的描述可以讓AI更好地理解需求。無論如何，AI生成圖片仍面臨許多挑戰，需要更多的研究與嘗試。

#中文 #衣服 #AI

是我啦，我好學啦

2024/07/24

AI可以讓你的作品變更好看嗎？答案是「有困難」

AI繪圖要廣泛用於商用還有一大段路，還需要依賴人類的經驗判斷、調整，為什麼呢？

#AI繪圖 #midjourney繪圖 #AI套現

沉默者的發聲方式

2024/07/20

AI會修正亂寫的文章嗎?

這是一篇描述測試AI功能的文章，內容是一些隨心所欲的想法和想像，引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。

#失控 #版本 #測試

Darren的沙龍

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT #AlphaGo #人工智慧