vocus logo

方格子 vocus

【2025 夏日精選-5】輕鬆載入資料集-Datasets

更新 發佈閱讀 6 分鐘
大家都知道,訓練一個完整的模型需要上萬筆資料,而資料的取得往往是最令人頭痛的地方

在知道如何下載前,先來談談「資料集 (Dataset)」這個東西

資料集

顧名思義,資料集就是指資料的集合,而且最重要的是要能在電腦中處理

資料集中的值可以是數字,例如實數或整數,例如身高、血壓...,也可以是標稱資料(即並非數值的數據),例如種族、血型...

而不管是自然語言處理,甚至是深度學習,在訓練和測試都需要用到大量的資料,而這些資料要從哪來呢?別擔心,貼心的 Hugging Face 已經準備好破萬個資料集了




Datasets

是 Hugging Face 提供的高效資料處理套件,專為機器學習與自然語言處理 (NLP) 設計,支援快速下載、處理、過濾、轉換、分批與共享資料集

決定下載之前,你可以先在 Hugging Face 網站上物色符合需求的資料集

https://huggingface.co/datasets


(眼花撩亂不知道要選什麼的話,可以請 GPT 列出幾個)

先用一個比較小的資料集 poem_sentiment 實做看看吧!



下載 Datasets

首先要去終端機下載 datasets​

pip install datasets​
raw-image



檢查資料集內容

from datasets import load_dataset_builder

builder = load_dataset_builder("poem_sentiment")

print(builder.info.dataset_size) # 60197
print(builder.info.dataset_name) # poem_sentiment
print(builder.info.features) # {'id': Value('int32'), 'verse_text': Value('string'), 'label': ClassLabel(names=['negative', 'positive', 'no_impact', 'mixed'])}

load_dataset_builder 只是看一下資料集的資訊,並不會把它下載下來



直接下載 Hugging Face 資料集

from datasets import load_dataset

dataset = load_dataset("poem_sentiment")

print(dataset)
# DatasetDict({
# train: Dataset({
# features: ['id', 'verse_text', 'label'],
# num_rows: 892
# })
# validation: Dataset({
# features: ['id', 'verse_text', 'label'],
# num_rows: 105
# })
# test: Dataset({
# features: ['id', 'verse_text', 'label'],
# num_rows: 104
# })
# })



下載遠端資料

from datasets import load_dataset

url = "https://raw.githubusercontent.com/Dale-0615/i_have_no_idea/main/example.txt"
dataset = load_dataset('text', data_files=url)

print(dataset['train'][0])
# {'text': 'It is just an example.'}

順帶一提,​如果是 JSON、CSV、或 JSONL 格式,可以使用:
load_dataset("json", data_files=url)
load_dataset("csv", data_files=url)



下載本地資料

from datasets import load_dataset

dataset = load_dataset('text', data_files="C:/Users/Dale/Downloads/example.txt")

print(dataset['train'][0])

只要換成本地的檔案路徑就可以囉!


參考資料

留言
avatar-img
の倉的程式小天地
6會員
32內容數
熱愛做志工的大學生 誤打誤撞跑去讀資管系 既然來到了資管系,那就學習新技能來幫助他人
2025/07/13
上一篇只講了 Tokenizer 最快的用法,但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼,但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token
Thumbnail
2025/07/13
上一篇只講了 Tokenizer 最快的用法,但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼,但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token
Thumbnail
2025/07/13
今天要講的是 Hugging Face 貼心準備的工具包,歸屬在 Transformers 中的 Tokenizer (分詞器)
Thumbnail
2025/07/13
今天要講的是 Hugging Face 貼心準備的工具包,歸屬在 Transformers 中的 Tokenizer (分詞器)
Thumbnail
2025/07/13
電腦沒辦法理解人類的語言,所以需要先將文字轉換成電腦能讀懂的數字,而我們不可能把一整句話直接編碼,例如:"I love you."=1、"I love him."=2...,這樣編碼到最後會變成天文數字,所以在那之前我們需要先將一句話分成最小單位,也就是「詞」
Thumbnail
2025/07/13
電腦沒辦法理解人類的語言,所以需要先將文字轉換成電腦能讀懂的數字,而我們不可能把一整句話直接編碼,例如:"I love you."=1、"I love him."=2...,這樣編碼到最後會變成天文數字,所以在那之前我們需要先將一句話分成最小單位,也就是「詞」
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News