郝信華 iPAS AI應用規劃師學習筆記

HellaSwag

iPAS AI應用規劃師學習筆記

發佈於生成式AI技術與應用

2025/08/14 更新2025/08/14 發佈閱讀 3 分鐘

HellaSwag 是一個用來評估大型語言模型（LLM）常識推理能力的重要基準測試集，首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式：

名稱由來：HellaSwag 全稱為 Harder Endings Longer contexts Low shot Activities for Situations With Adversarial Generations，強調題目有較長的情境描述，且錯誤選項經過對抗性生成以提高難度。
題目形式：每道題目以短篇描述開頭（句子多取自視頻字幕或線上教學文本，如 ActivityNet、WikiHow），描述一個日常動作或場景。接著給出4個可能的後續敘述選項，只有1個正確，其餘3個是精心生成且有誤導性的錯誤答案，要考驗模型的常識和邏輯推理能力。
範例：
人類很容易看出選項A最符合合理操作，機器則需理解物理和社會常識來作答。
- 上下文：一個人打開穀物盒，開始倒進碗裡。
- 選項A：他把碗放在桌上，拿起湯匙。
- 選項B：他把穀物扔向牆壁。
- 選項C：他走開並關上門。
- 選項D：他把盒子倒過來，什麼也沒出來。
測試內容：
- 需要理解事件的時間序列、
- 物理常識（行為是否可能）、
- 社會規範（行為是否合適）、
- 深層語義推理（基於暗示完成故事）。
資料規模：原始版本包含超過一萬道題目，2025年推出的 HellaSwag-Pro 更擴充了超過11,000道題，並引入句式轉換（如被動語態、否定詞）、語義敏感性測試、去除表面線索等，強化評測模型的推理穩健度。
評分意義：HellaSwag 不只是看模型表面文字匹配能力，而是衡量其真正理解和推斷常識事件的能力。目前人類正確率約95.6%，開源模型約80%，頂尖專有模型接近90%，顯示模型在常識推理上仍有提升空間。
應用與影響：
- 作為診斷工具，揭露大型語言模型在常識推理方面的限制，
- 驅動對抗性數據生成和語義穩健性評測技術，
- 幫助模型開發者在多樣化問題和語境中提升模型可靠度，
- 已成為多種自然語言處理應用的微調參考和評估標準。

總結來說，HellaSwag 是一個聚焦於日常場景常識推理的語言理解基準，透過設計精巧的選項干擾，挑戰模型不能只靠表面文字匹配，而必須具備真正的世界知識和推理能力，成為衡量大型語言模型智能的經典工具之一。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記生成式AI技術與應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

21會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/14

MMLU (Massive Multi-task Language Understanding)

MMLU，全名是「Massive Multi-task Language Understanding」（大規模多任務語言理解），是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。以下是MMLU的主要特點說明：測試範圍廣泛：涵蓋57個不同的主題領域，包括人文科學（歷史、哲學

2025/08/14

MMLU (Massive Multi-task Language Understanding)

MMLU，全名是「Massive Multi-task Language Understanding」（大規模多任務語言理解），是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。以下是MMLU的主要特點說明：測試範圍廣泛：涵蓋57個不同的主題領域，包括人文科學（歷史、哲學

2025/08/14

COCO（Common Objects in Context）

COCO（Common Objects in Context）是一個大規模且廣泛使用的影像數據集，主要用於計算機視覺領域中的目標檢測（Detection）、圖像分割（Segmentation）、以及圖像描述（Captioning）等任務。以下是COCO資料集的重點介紹：規模與內容： COCO包含

2025/08/14

COCO（Common Objects in Context）

COCO（Common Objects in Context）是一個大規模且廣泛使用的影像數據集，主要用於計算機視覺領域中的目標檢測（Detection）、圖像分割（Segmentation）、以及圖像描述（Captioning）等任務。以下是COCO資料集的重點介紹：規模與內容： COCO包含

2025/08/14

ImageNet 是一個非常重要且廣泛使用的大型影像數據庫，主要用於機器學習和計算機視覺的研究領域。以下是關於 ImageNet 的主要介紹：規模與內容： ImageNet 數據集包含超過一千四百萬張標註過的高解析度圖片，涵蓋了約兩萬多個類別（Synset，根據 WordNet 進行組織）。其中

2025/08/14

ImageNet 是一個非常重要且廣泛使用的大型影像數據庫，主要用於機器學習和計算機視覺的研究領域。以下是關於 ImageNet 的主要介紹：規模與內容： ImageNet 數據集包含超過一千四百萬張標註過的高解析度圖片，涵蓋了約兩萬多個類別（Synset，根據 WordNet 進行組織）。其中

你可能也想看

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 96

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/19

Learn AI 不 BI

AI說書 - 從0開始 - 96

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/19

Learn AI 不 BI

AI說書 - 從0開始 - 95

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/18

Learn AI 不 BI

AI說書 - 從0開始 - 95

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/18

Learn AI 不 BI

AI說書 - 從0開始 - 94

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/17

Learn AI 不 BI

AI說書 - 從0開始 - 94

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/17

Learn AI 不 BI

AI說書 - 從0開始 - 83

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx 提到，既然提到訓練，就表示要有一套衡量基準供大家遵守，有鑑於此，以下繼續介紹幾類衡量方式： MCC：首先介紹 True (T) Positive (

#AI#ai#PromptEngineering

2024/07/11

Learn AI 不 BI

AI說書 - 從0開始 - 83

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx 提到，既然提到訓練，就表示要有一套衡量基準供大家遵守，有鑑於此，以下繼續介紹幾類衡量方式： MCC：首先介紹 True (T) Positive (

#AI#ai#PromptEngineering

2024/07/11

上古漢語的邏輯結構 000

目錄序導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份

#上古漢語#邏輯結構#哲學

2024/05/09

上古漢語的邏輯結構 000

目錄序導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份

#上古漢語#邏輯結構#哲學

2024/05/09

布魯斯的心智訓練天地

好的成品都是琢磨出來的 --- 高手詞彙必修課

作者用常見的生活模式為底，分享所見所聞，提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的，也非常需要靠別人的作品來當作自己的養分來源，多閱讀別人的書籍、文字、而且是有意識的學習，然後再加上實踐，相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。

#詞彙#文案#五感

2024/03/18

布魯斯的心智訓練天地

好的成品都是琢磨出來的 --- 高手詞彙必修課

作者用常見的生活模式為底，分享所見所聞，提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的，也非常需要靠別人的作品來當作自己的養分來源，多閱讀別人的書籍、文字、而且是有意識的學習，然後再加上實踐，相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。

#詞彙#文案#五感

2024/03/18

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News