【2025 夏日精選-5】輕鬆載入資料集-Datasets

更新於 發佈於 閱讀時間約 6 分鐘
大家都知道,訓練一個完整的模型需要上萬筆資料,而資料的取得往往是最令人頭痛的地方

在知道如何下載前,先來談談「資料集 (Dataset)」這個東西

資料集

顧名思義,資料集就是指資料的集合,而且最重要的是要能在電腦中處理

資料集中的值可以是數字,例如實數或整數,例如身高、血壓...,也可以是標稱資料(即並非數值的數據),例如種族、血型...

而不管是自然語言處理,甚至是深度學習,在訓練和測試都需要用到大量的資料,而這些資料要從哪來呢?別擔心,貼心的 Hugging Face 已經準備好破萬個資料集了




Datasets

是 Hugging Face 提供的高效資料處理套件,專為機器學習與自然語言處理 (NLP) 設計,支援快速下載、處理、過濾、轉換、分批與共享資料集

決定下載之前,你可以先在 Hugging Face 網站上物色符合需求的資料集

https://huggingface.co/datasets


(眼花撩亂不知道要選什麼的話,可以請 GPT 列出幾個)

先用一個比較小的資料集 poem_sentiment 實做看看吧!



下載 Datasets

首先要去終端機下載 datasets​

pip install datasets​
raw-image



檢查資料集內容

from datasets import load_dataset_builder

builder = load_dataset_builder("poem_sentiment")

print(builder.info.dataset_size) # 60197
print(builder.info.dataset_name) # poem_sentiment
print(builder.info.features) # {'id': Value('int32'), 'verse_text': Value('string'), 'label': ClassLabel(names=['negative', 'positive', 'no_impact', 'mixed'])}

load_dataset_builder 只是看一下資料集的資訊,並不會把它下載下來



直接下載 Hugging Face 資料集

from datasets import load_dataset

dataset = load_dataset("poem_sentiment")

print(dataset)
# DatasetDict({
# train: Dataset({
# features: ['id', 'verse_text', 'label'],
# num_rows: 892
# })
# validation: Dataset({
# features: ['id', 'verse_text', 'label'],
# num_rows: 105
# })
# test: Dataset({
# features: ['id', 'verse_text', 'label'],
# num_rows: 104
# })
# })



下載遠端資料

from datasets import load_dataset

url = "https://raw.githubusercontent.com/Dale-0615/i_have_no_idea/main/example.txt"
dataset = load_dataset('text', data_files=url)

print(dataset['train'][0])
# {'text': 'It is just an example.'}

順帶一提,​如果是 JSON、CSV、或 JSONL 格式,可以使用:
load_dataset("json", data_files=url)
load_dataset("csv", data_files=url)



下載本地資料

from datasets import load_dataset

dataset = load_dataset('text', data_files="C:/Users/Dale/Downloads/example.txt")

print(dataset['train'][0])

只要換成本地的檔案路徑就可以囉!


參考資料

留言
avatar-img
留言分享你的想法!
avatar-img
の倉的程式小天地
6會員
32內容數
熱愛做志工的大學生 誤打誤撞跑去讀資管系 既然來到了資管系,那就學習新技能來幫助他人
2025/07/13
上一篇只講了 Tokenizer 最快的用法,但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼,但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token
Thumbnail
2025/07/13
上一篇只講了 Tokenizer 最快的用法,但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼,但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token
Thumbnail
2025/07/13
今天要講的是 Hugging Face 貼心準備的工具包,歸屬在 Transformers 中的 Tokenizer (分詞器)
Thumbnail
2025/07/13
今天要講的是 Hugging Face 貼心準備的工具包,歸屬在 Transformers 中的 Tokenizer (分詞器)
Thumbnail
2025/07/13
電腦沒辦法理解人類的語言,所以需要先將文字轉換成電腦能讀懂的數字,而我們不可能把一整句話直接編碼,例如:"I love you."=1、"I love him."=2...,這樣編碼到最後會變成天文數字,所以在那之前我們需要先將一句話分成最小單位,也就是「詞」
Thumbnail
2025/07/13
電腦沒辦法理解人類的語言,所以需要先將文字轉換成電腦能讀懂的數字,而我們不可能把一整句話直接編碼,例如:"I love you."=1、"I love him."=2...,這樣編碼到最後會變成天文數字,所以在那之前我們需要先將一句話分成最小單位,也就是「詞」
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
如何用Python匯入大批Excel檔案? os.listdir建立資料夾內[檔案名稱.副檔名]之列表 利用迴圈將所有檔案匯入Python 用pandas.concat合併所有DataFrame
Thumbnail
如何用Python匯入大批Excel檔案? os.listdir建立資料夾內[檔案名稱.副檔名]之列表 利用迴圈將所有檔案匯入Python 用pandas.concat合併所有DataFrame
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News