GSM8K（Grade School Math 8K）

2025/08/14 更新2025/08/14 發佈閱讀 2 分鐘

GSM8K（Grade School Math 8K）是一個用來評估大型語言模型在數學推理能力方面的經典基準數據集。它包含約8,500個由專業人員創建的、涵蓋多步驟推理的小學生數學語言題目，這些題目語言多樣且設計用於測試模型對基礎數學問題的理解與解答能力。

主要特點包括：

題目數量與結構：共有約7,500道訓練題和1,000道測試題。每題需要2到8個步驟的計算，多數涉及基本算術運算的串聯。
語言多樣性：題目使用各種自然語言表達，考驗模型的語言理解與數學推理綜合能力。
挑戰目標：雖然題目概念簡單，但多步驟計算和詞語表達的多樣性使得即使是先進的大型語言模型（如GPT-4）在此任務上仍有挑戰。
應用：主要用於訓練和評估模型的多步數學推理能力，並推動提升模型在解題過程中逐步推理的表現。

目前頂尖模型在GSM8K上的表現如下：

Anthropic Claude 3約達95%準確率（Zero-shot）
Google Gemini Ultra約94.4%
OpenAI GPT-4約92%，採用微調+少量示例推理（5-shot CoT）
其他多種先進模型準確率一般在80%-90%之間。

此外，研究者也使用像是驗證器（verifier）模型來評估和優化生成答案的正確性，進一步提升GSM8K上的準確表現。

簡而言之，GSM8K是目前評估大型語言模型在小學數學詞彙問題上多步推理能力的重要指標，成為檢測和比較模型數學解題能力的主流基準之一。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記生成式AI技術與應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

21會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/14

HellaSwag

HellaSwag 是一個用來評估大型語言模型（LLM）常識推理能力的重要基準測試集，首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式：名稱由來：HellaSwag 全稱為 Ha

2025/08/14

HellaSwag

2025/08/14

MMLU (Massive Multi-task Language Understanding)

MMLU，全名是「Massive Multi-task Language Understanding」（大規模多任務語言理解），是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。以下是MMLU的主要特點說明：測試範圍廣泛：涵蓋57個不同的主題領域，包括人文科學（歷史、哲學

2025/08/14

MMLU (Massive Multi-task Language Understanding)

2025/08/14

COCO（Common Objects in Context）

COCO（Common Objects in Context）是一個大規模且廣泛使用的影像數據集，主要用於計算機視覺領域中的目標檢測（Detection）、圖像分割（Segmentation）、以及圖像描述（Captioning）等任務。以下是COCO資料集的重點介紹：規模與內容： COCO包含

2025/08/14

COCO（Common Objects in Context）

你可能也想看

中學數學基礎練習—整數加法練習

2024/07/02

中學數學基礎練習—整數加法練習

2024/07/02

高中數學主題練習—對數方程式

2024/06/26

高中數學主題練習—對數方程式

2024/06/26

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

112年國中教育會考數學科詳解手寫版，有寫錯或看不懂的地方，都可以在底下留言給我。感謝！

#112年#會考#數學科

2024/06/18

彼得的自由國度

112年國中教育會考數學科詳解

112年國中教育會考數學科詳解手寫版，有寫錯或看不懂的地方，都可以在底下留言給我。感謝！

2024/06/18

高中數學主題練習—平面向量內積計算

2024/05/26

高中數學主題練習—平面向量內積計算

2024/05/26

高中數學主題練習—平面向量內積計算

2024/05/26

高中數學主題練習—平面向量內積計算

2024/05/26

手寫版，有寫錯或看不懂的地方，都可以在底下留言給我。感謝！

#113年#國中#教育

2024/05/23

彼得的自由國度

113年國中教育會考數學科詳解

手寫版，有寫錯或看不懂的地方，都可以在底下留言給我。感謝！

2024/05/23

高中數學主題練習—標準化計算

2024/05/01

高中數學主題練習—標準化計算

2024/05/01

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News