如何計算 AI 智力

2025/07/09 更新2025/06/25 發佈閱讀 3 分鐘

AI近年來的發展令人驚嘆，從寫作、翻譯，到程式設計、醫學諮詢，許多 AI 模型已展現出超越人類水準的表現。我們該如何量化、比較、甚至真正理解 AI 的智力？如果說，20 世紀的智商（IQ）測驗是人類試圖捕捉大腦能力的一種方式，那麼 21 世紀的 AI 測評工具，就是科技界評估人工智能的智商考試。然而，AI 的智力，遠比人類智商複雜。AI 並不具備真正的理解、意識或常識，但它們卻能在特定任務中展現令人難以置信的計算與推理能力。因此，專業、嚴謹且持續演進的智力評估工具，成為整個 AI 產業的重要基礎。

MMLU：AI 智力排名的學科考試

面對衡量 AI 智力的需求，MMLU（Massive Multitask Language Understanding）應運而生。這個由 UC Berkeley、Stanford、AI21 Labs 等機構於 2021 年提出的測試，迅速成為評比大型語言模型（LLM）的國際標準。MMLU 的設計類似學校考試，涵蓋 57 個領域，從醫學、法律、歷史，到數學、物理、電腦科學。每個領域題目都為多選題，結合專業知識與推理能力，全面檢驗 AI 的語言理解與跨領域整合實力。自 MMLU 推出後，科技巨頭紛紛將旗下最強模型送上比試擂台：

OpenAI o1：約 90.5 %
DeepSeek-R1：約 90.8 %
Grok‑3：約92.7 %（存在爭議）
Claude 3.5 Sonnet：約 88 %

除了總分，許多「特殊題型」也反映出不同 AI 模型的獨特優勢：

DeepSeek-R1：在中文醫學、法律等專業題目中領先，特別適合中文多領域知識整合
Grok-3：在複雜數學推理、符號邏輯、Python 程式生成中表現突出，適合處理演算法、程式設計任務
Claude 3.5：擅長思維鏈推理，能清晰列出推理步驟，便於人類理解 AI 的思考邏輯

這些差異顯示，單純用總分評斷 AI 智力並不全面，實際應用場景才是關鍵。

AI 智力，無止盡的競賽

AI 智力測試，如同科技界的馬拉松，沒有終點，只有不斷推進的標準與挑戰。MMLU、MMLU‑Pro（進階、困難版多選題，更考驗推理深度）、Humanity's Last Exam（跨領域開放推理挑戰，測試泛化與創造性）等工具，雖無法全面定義 AI 的智商，卻是觀察技術發展的重要窗口。

邊喝邊想，我們會聊聊酒、聊聊神話，也聊聊這個世界。

留言

想想

12會員

216內容數

Hi！歡迎來到想想。我們一起觀察趨勢，理解來龍去脈，聊聊科技如何改變生活。在快速變動的世界裡，找回思考的節奏。

想想的其他內容

2025/06/25

NVIDIA，AI 世界的運算引擎

NVIDIA 透過H200等AI晶片，全面布局生成式AI與資料中心市場，鞏固算力霸主地位。

2025/06/25

NVIDIA，AI 世界的運算引擎

NVIDIA 透過H200等AI晶片，全面布局生成式AI與資料中心市場，鞏固算力霸主地位。

2025/06/24

Grok 3：馬斯克的地表最強 AI

Grok 3 快速逼近 AI 頂尖行列，成為生態關鍵變數。

2025/06/24

Grok 3：馬斯克的地表最強 AI

Grok 3 快速逼近 AI 頂尖行列，成為生態關鍵變數。

2025/06/24

AI五強之戰

AI競爭加劇，五大巨頭與模型廠商各自布局，權力版圖持續變動。

2025/06/24

AI五強之戰

AI競爭加劇，五大巨頭與模型廠商各自布局，權力版圖持續變動。

看更多

你可能也想看

單身獨居女子的日常

I人如我也能輕鬆聊｜交友軟體 Ping! 的全新體驗

PING! 交友軟體體驗心得分享，內文詳述app操作介面，以及軟體特色與功能，並提供app下載連結，推薦給有交友需求的朋友更多選擇。

#單身#交友軟體#交友軟體推薦

2025/12/30

單身獨居女子的日常

I人如我也能輕鬆聊｜交友軟體 Ping! 的全新體驗

PING! 交友軟體體驗心得分享，內文詳述app操作介面，以及軟體特色與功能，並提供app下載連結，推薦給有交友需求的朋友更多選擇。

#單身#交友軟體#交友軟體推薦

2025/12/30

黛•Adele的生活隨筆

真人認證交友軟體 Ping!｜讓聊天回到互動本身的安心交友體驗

身為自由工作者，我分享使用 Ping! 交友軟體的實際體驗，從真人認證、生活標籤到聊天節奏，談談我如何在不增加壓力的情況下，透過交友軟體認識價值觀合拍的人，建立高品質的交友關係。

#Ping#Ping交友軟體#大人系交友軟體

2026/01/07

黛•Adele的生活隨筆

真人認證交友軟體 Ping!｜讓聊天回到互動本身的安心交友體驗

#Ping#Ping交友軟體#大人系交友軟體

2026/01/07

小芝女看天下

【Ping! 交友心得】生活圈固定，也能安心認識新朋友？真實使用體驗分享

你也和我一樣，生活圈固定、想認識新朋友又害怕遇到怪人嗎？身為研生與大I人，這篇文章分享了我實際使用 Ping! 交友軟體的經驗。Ping! 主打真人認證、慢速交友與高品質聊天體驗，讓交友回到安心、不焦慮的狀態。

#Ping交友軟體#Ping#Ping評價

2026/01/14

小芝女看天下

【Ping! 交友心得】生活圈固定，也能安心認識新朋友？真實使用體驗分享

#Ping交友軟體#Ping#Ping評價

2026/01/14

鹿刻Luke

最真實的交友軟體Ping!，2026脫單必備，別再跟AI談感情

交友軟體Ping!透過嚴格的真人認證機制，替使用者把關「照騙」與假帳號的風險，Ping!也強調照片與個性並重，透過個人頁面設計，讓用戶在瀏覽照片的同時，也能深入瞭解對方的興趣、價值觀，不僅是一個交友軟體，更是引導使用者找到真實自我、開啟高品質情感關係的催化劑。

#感情#Android#電影

2026/02/25

鹿刻Luke

最真實的交友軟體Ping!，2026脫單必備，別再跟AI談感情

#感情#Android#電影

2026/02/25

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19