HellaSwag

更新於 發佈於 閱讀時間約 3 分鐘

HellaSwag 是一個用來評估大型語言模型(LLM)常識推理能力的重要基準測試集,首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式:

  • 名稱由來:HellaSwag 全稱為 Harder Endings Longer contexts Low shot Activities for Situations With Adversarial Generations,強調題目有較長的情境描述,且錯誤選項經過對抗性生成以提高難度。
  • 題目形式:每道題目以短篇描述開頭(句子多取自視頻字幕或線上教學文本,如 ActivityNet、WikiHow),描述一個日常動作或場景。接著給出4個可能的後續敘述選項,只有1個正確,其餘3個是精心生成且有誤導性的錯誤答案,要考驗模型的常識和邏輯推理能力。
  • 範例
    人類很容易看出選項A最符合合理操作,機器則需理解物理和社會常識來作答。
    • 上下文:一個人打開穀物盒,開始倒進碗裡。
    • 選項A:他把碗放在桌上,拿起湯匙。
    • 選項B:他把穀物扔向牆壁。
    • 選項C:他走開並關上門。
    • 選項D:他把盒子倒過來,什麼也沒出來。
  • 測試內容
    • 需要理解事件的時間序列、
    • 物理常識(行為是否可能)、
    • 社會規範(行為是否合適)、
    • 深層語義推理(基於暗示完成故事)。
  • 資料規模:原始版本包含超過一萬道題目,2025年推出的 HellaSwag-Pro 更擴充了超過11,000道題,並引入句式轉換(如被動語態、否定詞)、語義敏感性測試、去除表面線索等,強化評測模型的推理穩健度。
  • 評分意義:HellaSwag 不只是看模型表面文字匹配能力,而是衡量其真正理解和推斷常識事件的能力。目前人類正確率約95.6%,開源模型約80%,頂尖專有模型接近90%,顯示模型在常識推理上仍有提升空間。
  • 應用與影響
    • 作為診斷工具,揭露大型語言模型在常識推理方面的限制,
    • 驅動對抗性數據生成和語義穩健性評測技術,
    • 幫助模型開發者在多樣化問題和語境中提升模型可靠度,
    • 已成為多種自然語言處理應用的微調參考和評估標準。

總結來說,HellaSwag 是一個聚焦於日常場景常識推理的語言理解基準,透過設計精巧的選項干擾,挑戰模型不能只靠表面文字匹配,而必須具備真正的世界知識和推理能力,成為衡量大型語言模型智能的經典工具之一。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
19會員
484內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
2025/08/14
ImageNet 是一個非常重要且廣泛使用的大型影像數據庫,主要用於機器學習和計算機視覺的研究領域。以下是關於 ImageNet 的主要介紹: 規模與內容: ImageNet 數據集包含超過一千四百萬張標註過的高解析度圖片,涵蓋了約兩萬多個類別(Synset,根據 WordNet 進行組織)。其中
2025/08/14
ImageNet 是一個非常重要且廣泛使用的大型影像數據庫,主要用於機器學習和計算機視覺的研究領域。以下是關於 ImageNet 的主要介紹: 規模與內容: ImageNet 數據集包含超過一千四百萬張標註過的高解析度圖片,涵蓋了約兩萬多個類別(Synset,根據 WordNet 進行組織)。其中
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
作者用常見的生活模式為底,分享所見所聞,提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的,也非常需要靠別人的作品來當作自己的養分來源,多閱讀別人的書籍、文字、而且是有意識的學習,然後再加上實踐,相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。
Thumbnail
作者用常見的生活模式為底,分享所見所聞,提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的,也非常需要靠別人的作品來當作自己的養分來源,多閱讀別人的書籍、文字、而且是有意識的學習,然後再加上實踐,相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News