📝📝:測驗拿很高,現實卻無感|AI 基準值測試仍與現實世界的複雜度不符

更新於 發佈於 閱讀時間約 4 分鐘

AI 基準測試歷來無法捕捉現實世界中的複雜性,特別是針對 AI 系統可能執行的任務。



本文翻譯自 Epoch AI 的報告《The real reason AI benchmarks haven’t reflected economic impacts


AI 基準測試(Benchmark)歷來無法捕捉現實世界中的複雜性,特別是針對 AI 系統可能執行的任務,經常導致對 AI 當前能力和未來影響產生誤導性結論。

這種脫節並非僅僅是疏忽,而是反映了 AI 研究中更深層次的優先事項,這些優先事項也隨著 AI 能力本身的發展而演變。


AI 基準測試的歷史演進

AI 基準測試隨著時間不斷演進,反映出當代 AI 模型的能力。這種演進目前可歸類為三個主要階段:

2017 年之前: 基本簡易任務

早期的 AI 基準著重於簡單直接的任務,例如圖像分類 (例如 ImageNetCIFAR-100) 和情感分析。

*ImageNet 專案是一個大型視覺資料庫,用於視覺目標辨識軟體研究。該專案已手動標記了 1400 多萬張圖像,以指出圖片中的物件,包含兩萬多個典型類別,例如「氣球」或「草莓」,每一類包含數百張圖像。

這些基準提供了明確的評估指標,但無法反映真實世界任務的複雜性。

ImageNet 專案

ImageNet 專案


2018–2021: 多選題與開放式文字產生

多項選擇題作答和簡單文字產生基準的引入擴展了 AI 評估方法。

CommonSenseQAMMLU 等基準測量了更廣泛的 AI 能力,但仍然依賴於結構化、人工化的場景。

*MMLU(大規模多任務語言理解)是一個用來衡量大型語言模型在大量不同主題上的多任務準確性的基準。涵蓋了 57 個不同的任務,包括:基礎數學、美國歷史、電腦科學、法律等等。




2021 年後: 真實世界任務表現的嘗試

最近的基準,包括 SWE-BenchRE-Bench,嘗試在更真實的環境中評估 AI。

儘管有這些進展,這些基準通常會簡化真實世界的複雜性,以確保評估性。

*SWE-Bench(Software Engineering Benchmark)是一個專門設計用來評估大型語言模型(LLMs)在解決真實世界軟體工程問題能力上的基準。SWE-Bench 與 MMLU 關注廣泛的學科知識不同,SWE-Bench 更聚焦於程式設計和軟體開發的特定技能。

這些基準通常會簡化真實世界的複雜性,以確保評估性。





優先考慮「恰好可及」的任務

基準測試創建者歷來並非優先考慮現實世界的完整呈現,而是專注於開發「恰好可及」當代 AI 能力的測試。這種方法有幾個目的:

  • 提供訓練信號

太容易或太難的基準測試,不會為改進 AI 模型提供有用的反饋。處於當前能力邊緣的任務提供最具生產力的訓練信號。

  • 實現模型比較

為了比較不同模型的相對性能,完全現實(practical)的任務並不是首要的考量,反而需要「分數差異」與「能力差異」相關的基準測試。

  • 低估 AI 的進展

許多研究人員沒有預料到 AI 能力會如此迅速進步,導致他們設計了更簡單的基準測試作為現實世界任務的代理。

  • 展示令人印象深刻的成果

基準測試經常優先考慮對人類具挑戰性的任務(如圍棋或科學多項選擇題),以便在 AI 成功時創造令人眼睛為之一亮的演示,即使人類難題不一定與 AI 難題一致。


現實主義限制並非約束因素

現實世界的限制並非是創建更實際基準測試的主要障礙。

2021年的 HumanEval 基準測試包含短小自包含的編碼問題,而非後來基準測試如 SWE-Bench 中更實際的任務。原因並非 SWE-Bench 在早期不可能創建,只是對當時的模型而言「超出能力範圍」。

基準測試經常優先考慮對人類具挑戰性的任務(如圍棋或科學多項選擇題)。


如今,基準測試設計面臨著相互競爭的力量:

  • 推動現實主義

隨著 AI 系統變得越來越有能力並在各經濟部門部署,研究人員有更強的動機開發能捕捉現實世界經濟影響的基準測試。

  • 實際挑戰

創建真正現實的基準測試涉及許多實際和基本障礙。例如,RE-Bench 不得不簡化機器學習任務環境以便於性能驗證,犧牲了實際研究環境的一些複雜性。




對理解 AI 進展的影響

這種張力如何解決對我們準確評估 AI 進展和為未來影響做準備的能力有重大影響。基準測試是否會繼續朝著更大現實主義演變或仍受實際限制約束,這仍是一個懸而未決的問題,將塑造我們對 AI 發展的理解。

基準測試性能與現實世界能力之間的脫節不僅僅是一個學術問題 — 它直接影響我們如何感知、準備和應對 AI 的進步。



avatar-img
社會人的哲學沉思
115會員
245內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
留言
avatar-img
留言分享你的想法!
社會人的哲學沉思 的其他內容
《混沌少年時》的敘事主題之一正是「紅藥丸」。男性如何成為非自願單身者,以及紅藥丸如何榨取寂寞商機。劇中的傑米,也是紅藥丸的影響才犯下如此駭人的罪刑。
5/5混沌少年時(Adolescence)
AI 的創新速度驚人,而且通常是以軟體為導向。AI 關係到迭代改進、功能的快速部署、用戶反饋環路以及大膽的實驗。在這個領域中,遲到不只可能會錯失機會,也可能意味著錯過整個浪潮。
由 AI 科學家(The AI Scientist V2)完全生成的一篇論文成功通過了 2025 年國際學習表徵會議(ICLR)研討會的同行評審過程。
《混沌少年時》的敘事主題之一正是「紅藥丸」。男性如何成為非自願單身者,以及紅藥丸如何榨取寂寞商機。劇中的傑米,也是紅藥丸的影響才犯下如此駭人的罪刑。
5/5混沌少年時(Adolescence)
AI 的創新速度驚人,而且通常是以軟體為導向。AI 關係到迭代改進、功能的快速部署、用戶反饋環路以及大膽的實驗。在這個領域中,遲到不只可能會錯失機會,也可能意味著錯過整個浪潮。
由 AI 科學家(The AI Scientist V2)完全生成的一篇論文成功通過了 2025 年國際學習表徵會議(ICLR)研討會的同行評審過程。
你可能也想看
Google News 追蹤
Thumbnail
【vocus 精選投資理財/金融類沙龍,輸入 "moneyback" 年訂閱 9 折】 市場動盪時,加碼永遠值得的投資標的——「自己」 川普政府再度拋出關稅震撼彈,全球市場應聲重挫,從散戶到專業投資人,都急著找尋買進殺出的訊號,就是現在,輪到知識進場!把握時機讓自己升級,別放過反彈的機會!
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文討論了雖然人工智慧可以提供大量參考答案,但缺乏感知和直覺,無法主動發現不尋常的情況,因此仍需要人腦確認和解決問題的重要性。同時強調了發現奇怪之處、與人溝通、發現問題點、詢問AI並總結出答案的能力和實作的能力的重要性。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
基於好奇心還是有測試過方格子的 AI 建議,但拒絕使用。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及更多即將面世的AI運用場景,每一項都將對人類社會產生重大的影響。 很多人已經感受到AI的威力,並且因為擔心工作不保,所以急著參加各種AI教學課程。 我會以大量使用、測試AI的經驗,輔以田野調查的結果,詳細解釋為什麼在這個時代「AI教學課程」(幾乎)沒用。
Thumbnail
我問AI,結果得到的兩個完全相反的結果,老師在教學影片中說的是Claude的版本.... 在AI時代自學,除了要懂得下咒語(prompt,網路上到處在教如何下正確的prompt,使AI更好用),還是要有一定的基礎能力(例如查核能力),不要太相信AI給的答案,多問幾家總是好的。
Thumbnail
【vocus 精選投資理財/金融類沙龍,輸入 "moneyback" 年訂閱 9 折】 市場動盪時,加碼永遠值得的投資標的——「自己」 川普政府再度拋出關稅震撼彈,全球市場應聲重挫,從散戶到專業投資人,都急著找尋買進殺出的訊號,就是現在,輪到知識進場!把握時機讓自己升級,別放過反彈的機會!
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文討論了雖然人工智慧可以提供大量參考答案,但缺乏感知和直覺,無法主動發現不尋常的情況,因此仍需要人腦確認和解決問題的重要性。同時強調了發現奇怪之處、與人溝通、發現問題點、詢問AI並總結出答案的能力和實作的能力的重要性。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
基於好奇心還是有測試過方格子的 AI 建議,但拒絕使用。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及更多即將面世的AI運用場景,每一項都將對人類社會產生重大的影響。 很多人已經感受到AI的威力,並且因為擔心工作不保,所以急著參加各種AI教學課程。 我會以大量使用、測試AI的經驗,輔以田野調查的結果,詳細解釋為什麼在這個時代「AI教學課程」(幾乎)沒用。
Thumbnail
我問AI,結果得到的兩個完全相反的結果,老師在教學影片中說的是Claude的版本.... 在AI時代自學,除了要懂得下咒語(prompt,網路上到處在教如何下正確的prompt,使AI更好用),還是要有一定的基礎能力(例如查核能力),不要太相信AI給的答案,多問幾家總是好的。