📝📝:測驗拿很高,現實卻無感|AI 基準值測試仍與現實世界的複雜度不符

更新於 發佈於 閱讀時間約 4 分鐘

AI 基準測試歷來無法捕捉現實世界中的複雜性,特別是針對 AI 系統可能執行的任務。



本文翻譯自 Epoch AI 的報告《The real reason AI benchmarks haven’t reflected economic impacts


AI 基準測試(Benchmark)歷來無法捕捉現實世界中的複雜性,特別是針對 AI 系統可能執行的任務,經常導致對 AI 當前能力和未來影響產生誤導性結論。

這種脫節並非僅僅是疏忽,而是反映了 AI 研究中更深層次的優先事項,這些優先事項也隨著 AI 能力本身的發展而演變。


AI 基準測試的歷史演進

AI 基準測試隨著時間不斷演進,反映出當代 AI 模型的能力。這種演進目前可歸類為三個主要階段:

2017 年之前: 基本簡易任務

早期的 AI 基準著重於簡單直接的任務,例如圖像分類 (例如 ImageNetCIFAR-100) 和情感分析。

*ImageNet 專案是一個大型視覺資料庫,用於視覺目標辨識軟體研究。該專案已手動標記了 1400 多萬張圖像,以指出圖片中的物件,包含兩萬多個典型類別,例如「氣球」或「草莓」,每一類包含數百張圖像。

這些基準提供了明確的評估指標,但無法反映真實世界任務的複雜性。

ImageNet 專案

ImageNet 專案


2018–2021: 多選題與開放式文字產生

多項選擇題作答和簡單文字產生基準的引入擴展了 AI 評估方法。

CommonSenseQAMMLU 等基準測量了更廣泛的 AI 能力,但仍然依賴於結構化、人工化的場景。

*MMLU(大規模多任務語言理解)是一個用來衡量大型語言模型在大量不同主題上的多任務準確性的基準。涵蓋了 57 個不同的任務,包括:基礎數學、美國歷史、電腦科學、法律等等。




2021 年後: 真實世界任務表現的嘗試

最近的基準,包括 SWE-BenchRE-Bench,嘗試在更真實的環境中評估 AI。

儘管有這些進展,這些基準通常會簡化真實世界的複雜性,以確保評估性。

*SWE-Bench(Software Engineering Benchmark)是一個專門設計用來評估大型語言模型(LLMs)在解決真實世界軟體工程問題能力上的基準。SWE-Bench 與 MMLU 關注廣泛的學科知識不同,SWE-Bench 更聚焦於程式設計和軟體開發的特定技能。

這些基準通常會簡化真實世界的複雜性,以確保評估性。





優先考慮「恰好可及」的任務

基準測試創建者歷來並非優先考慮現實世界的完整呈現,而是專注於開發「恰好可及」當代 AI 能力的測試。這種方法有幾個目的:

  • 提供訓練信號

太容易或太難的基準測試,不會為改進 AI 模型提供有用的反饋。處於當前能力邊緣的任務提供最具生產力的訓練信號。

  • 實現模型比較

為了比較不同模型的相對性能,完全現實(practical)的任務並不是首要的考量,反而需要「分數差異」與「能力差異」相關的基準測試。

  • 低估 AI 的進展

許多研究人員沒有預料到 AI 能力會如此迅速進步,導致他們設計了更簡單的基準測試作為現實世界任務的代理。

  • 展示令人印象深刻的成果

基準測試經常優先考慮對人類具挑戰性的任務(如圍棋或科學多項選擇題),以便在 AI 成功時創造令人眼睛為之一亮的演示,即使人類難題不一定與 AI 難題一致。


現實主義限制並非約束因素

現實世界的限制並非是創建更實際基準測試的主要障礙。

2021年的 HumanEval 基準測試包含短小自包含的編碼問題,而非後來基準測試如 SWE-Bench 中更實際的任務。原因並非 SWE-Bench 在早期不可能創建,只是對當時的模型而言「超出能力範圍」。

基準測試經常優先考慮對人類具挑戰性的任務(如圍棋或科學多項選擇題)。


如今,基準測試設計面臨著相互競爭的力量:

  • 推動現實主義

隨著 AI 系統變得越來越有能力並在各經濟部門部署,研究人員有更強的動機開發能捕捉現實世界經濟影響的基準測試。

  • 實際挑戰

創建真正現實的基準測試涉及許多實際和基本障礙。例如,RE-Bench 不得不簡化機器學習任務環境以便於性能驗證,犧牲了實際研究環境的一些複雜性。




對理解 AI 進展的影響

這種張力如何解決對我們準確評估 AI 進展和為未來影響做準備的能力有重大影響。基準測試是否會繼續朝著更大現實主義演變或仍受實際限制約束,這仍是一個懸而未決的問題,將塑造我們對 AI 發展的理解。

基準測試性能與現實世界能力之間的脫節不僅僅是一個學術問題 — 它直接影響我們如何感知、準備和應對 AI 的進步。



留言
avatar-img
留言分享你的想法!
avatar-img
社會人的哲學沉思
132會員
284內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
2025/04/25
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
2025/04/25
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
2025/04/22
「懶惰原住民」(the Lazy Native)的迷思並非自然形成,而是殖民當局帶著明確的意識形態意圖精心打造的。
Thumbnail
2025/04/22
「懶惰原住民」(the Lazy Native)的迷思並非自然形成,而是殖民當局帶著明確的意識形態意圖精心打造的。
Thumbnail
2025/04/18
KK 指出,AI 的長期影響將超過電力與火的發明,但這個變革需要數百年來逐步展現。
Thumbnail
2025/04/18
KK 指出,AI 的長期影響將超過電力與火的發明,但這個變革需要數百年來逐步展現。
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文討論了雖然人工智慧可以提供大量參考答案,但缺乏感知和直覺,無法主動發現不尋常的情況,因此仍需要人腦確認和解決問題的重要性。同時強調了發現奇怪之處、與人溝通、發現問題點、詢問AI並總結出答案的能力和實作的能力的重要性。
Thumbnail
本文討論了雖然人工智慧可以提供大量參考答案,但缺乏感知和直覺,無法主動發現不尋常的情況,因此仍需要人腦確認和解決問題的重要性。同時強調了發現奇怪之處、與人溝通、發現問題點、詢問AI並總結出答案的能力和實作的能力的重要性。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
基於好奇心還是有測試過方格子的 AI 建議,但拒絕使用。
Thumbnail
基於好奇心還是有測試過方格子的 AI 建議,但拒絕使用。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及更多即將面世的AI運用場景,每一項都將對人類社會產生重大的影響。 很多人已經感受到AI的威力,並且因為擔心工作不保,所以急著參加各種AI教學課程。 我會以大量使用、測試AI的經驗,輔以田野調查的結果,詳細解釋為什麼在這個時代「AI教學課程」(幾乎)沒用。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及更多即將面世的AI運用場景,每一項都將對人類社會產生重大的影響。 很多人已經感受到AI的威力,並且因為擔心工作不保,所以急著參加各種AI教學課程。 我會以大量使用、測試AI的經驗,輔以田野調查的結果,詳細解釋為什麼在這個時代「AI教學課程」(幾乎)沒用。
Thumbnail
我問AI,結果得到的兩個完全相反的結果,老師在教學影片中說的是Claude的版本.... 在AI時代自學,除了要懂得下咒語(prompt,網路上到處在教如何下正確的prompt,使AI更好用),還是要有一定的基礎能力(例如查核能力),不要太相信AI給的答案,多問幾家總是好的。
Thumbnail
我問AI,結果得到的兩個完全相反的結果,老師在教學影片中說的是Claude的版本.... 在AI時代自學,除了要懂得下咒語(prompt,網路上到處在教如何下正確的prompt,使AI更好用),還是要有一定的基礎能力(例如查核能力),不要太相信AI給的答案,多問幾家總是好的。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News