邊喝邊想 x 科技|如何計算 AI 智力

更新於 發佈於 閱讀時間約 3 分鐘
raw-image

AI近年來的發展令人驚嘆,從寫作、翻譯,到程式設計、醫學諮詢,許多 AI 模型已展現出超越人類水準的表現。我們該如何量化、比較、甚至真正理解 AI 的智力如果說,20 世紀的智商(IQ)測驗是人類試圖捕捉大腦能力的一種方式,那麼 21 世紀的 AI 測評工具,就是科技界評估人工智能的智商考試。然而,AI 的智力,遠比人類智商複雜。AI 並不具備真正的理解、意識或常識,但它們卻能在特定任務中展現令人難以置信的計算與推理能力。因此,專業、嚴謹且持續演進的智力評估工具,成為整個 AI 產業的重要基礎。


MMLU:AI 智力排名的學科考試

面對衡量 AI 智力的需求,MMLU(Massive Multitask Language Understanding) 應運而生。這個由 UC Berkeley、Stanford、AI21 Labs 等機構於 2021 年提出的測試,迅速成為評比大型語言模型(LLM)的國際標準。MMLU 的設計類似學校考試,涵蓋 57 個領域,從醫學、法律、歷史,到數學、物理、電腦科學。每個領域題目都為多選題,結合專業知識與推理能力,全面檢驗 AI 的語言理解與跨領域整合實力。自 MMLU 推出後,科技巨頭紛紛將旗下最強模型送上比試擂台:

  • OpenAI o1:約 90.5 %
  • DeepSeek-R1:約 90.8 %
  • Grok‑3約92.7 %(存在爭議)
  • Claude 3.5 Sonnet:約 88 %

除了總分,許多「特殊題型」也反映出不同 AI 模型的獨特優勢:

  • DeepSeek-R1:在中文醫學、法律等專業題目中領先,特別適合中文多領域知識整合
  • Grok-3:在複雜數學推理、符號邏輯、Python 程式生成中表現突出,適合處理演算法、程式設計任務
  • Claude 3.5:擅長思維鏈推理,能清晰列出推理步驟,便於人類理解 AI 的思考邏輯

這些差異顯示,單純用總分評斷 AI 智力並不全面,實際應用場景才是關鍵。


AI 智力,無止盡的競賽

AI 智力測試,如同科技界的馬拉松,沒有終點,只有不斷推進的標準與挑戰。MMLU、MMLU‑Pro(進階、困難版多選題,更考驗推理深度)、Humanity's Last Exam(跨領域開放推理挑戰,測試泛化與創造性) 等工具,雖無法全面定義 AI 的智商,卻是觀察技術發展的重要窗口。



邊喝邊想,我們會聊聊酒、聊聊神話,也聊聊這個世界。

留言
avatar-img
留言分享你的想法!
avatar-img
邊喝邊想的沙龍
0會員
17內容數
邊喝邊想的沙龍的其他內容
2025/06/25
NVIDIA 透過H200等AI晶片,全面布局生成式AI與資料中心市場,鞏固算力霸主地位。
Thumbnail
2025/06/25
NVIDIA 透過H200等AI晶片,全面布局生成式AI與資料中心市場,鞏固算力霸主地位。
Thumbnail
2025/06/24
Grok 3 快速逼近 AI 頂尖行列,成為生態關鍵變數。
Thumbnail
2025/06/24
Grok 3 快速逼近 AI 頂尖行列,成為生態關鍵變數。
Thumbnail
2025/06/24
AI競爭加劇,五大巨頭與模型廠商各自布局,權力版圖持續變動。
Thumbnail
2025/06/24
AI競爭加劇,五大巨頭與模型廠商各自布局,權力版圖持續變動。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
除現有已知的 AI 硬體建構廠商外,本篇並列出作者對於下一波 AI 應用興起時之潛力企業觀察清單,包含網路服務、網路安全、行業運用方案解決業者、與 AI 軟體開發商等。
Thumbnail
除現有已知的 AI 硬體建構廠商外,本篇並列出作者對於下一波 AI 應用興起時之潛力企業觀察清單,包含網路服務、網路安全、行業運用方案解決業者、與 AI 軟體開發商等。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News