GSM8K(Grade School Math 8K)

更新於 發佈於 閱讀時間約 2 分鐘

GSM8K(Grade School Math 8K)是一個用來評估大型語言模型在數學推理能力方面的經典基準數據集。它包含約8,500個由專業人員創建的、涵蓋多步驟推理的小學生數學語言題目,這些題目語言多樣且設計用於測試模型對基礎數學問題的理解與解答能力。

主要特點包括:

  • 題目數量與結構:共有約7,500道訓練題和1,000道測試題。每題需要2到8個步驟的計算,多數涉及基本算術運算的串聯。
  • 語言多樣性:題目使用各種自然語言表達,考驗模型的語言理解與數學推理綜合能力。
  • 挑戰目標:雖然題目概念簡單,但多步驟計算和詞語表達的多樣性使得即使是先進的大型語言模型(如GPT-4)在此任務上仍有挑戰。
  • 應用:主要用於訓練和評估模型的多步數學推理能力,並推動提升模型在解題過程中逐步推理的表現。

目前頂尖模型在GSM8K上的表現如下:

  • Anthropic Claude 3約達95%準確率(Zero-shot)
  • Google Gemini Ultra約94.4%
  • OpenAI GPT-4約92%,採用微調+少量示例推理(5-shot CoT)
  • 其他多種先進模型準確率一般在80%-90%之間。

此外,研究者也使用像是驗證器(verifier)模型來評估和優化生成答案的正確性,進一步提升GSM8K上的準確表現。

簡而言之,GSM8K是目前評估大型語言模型在小學數學詞彙問題上多步推理能力的重要指標,成為檢測和比較模型數學解題能力的主流基準之一。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
18會員
470內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/14
HellaSwag 是一個用來評估大型語言模型(LLM)常識推理能力的重要基準測試集,首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式: 名稱由來:HellaSwag 全稱為 Ha
2025/08/14
HellaSwag 是一個用來評估大型語言模型(LLM)常識推理能力的重要基準測試集,首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式: 名稱由來:HellaSwag 全稱為 Ha
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
中學數學基礎練習—整數加法練習
Thumbnail
中學數學基礎練習—整數加法練習
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
112年國中教育會考數學科詳解 手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
Thumbnail
112年國中教育會考數學科詳解 手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
高中數學主題練習—平面向量內積計算
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—標準化計算
Thumbnail
高中數學主題練習—相關係數計算
Thumbnail
高中數學主題練習—相關係數計算
Thumbnail
高中數學主題練習—平均數計算
Thumbnail
高中數學主題練習—平均數計算
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News