【2025 夏日精選-6】後續資料集處理

更新於 發佈於 閱讀時間約 5 分鐘
我們昨天下載的資料集比較完整,已經幫我們分好了訓練、驗證、測試用的資料集,但是如果今天真的遇到一大筆資料集的話該怎麼分割?想轉成 pandas 格式又該怎麼做?

昨天的下載的資料集 poem_sentiment 本身就是有分成訓練、驗證、測試,但是大部分的都只有訓練用而已,還要另外自己分出測試用的資料

一個完整的、用於模型訓練的資料集,不應該全部投入訓練,還要有驗證集跟測試集,而且不能與訓練集的資料重複,下面就來看看這些不同資料集的功能和佔整份資料集的比例

不同的資料集

訓練集(train)

  • 用途:訓練模型的資料集
  • 占比:8 成
  • 說明:以學生學習為例,訓練集就是平常寫的練習題,是「讀書」時看到的內容,模型會用這些資料來學習怎麼產生答案

驗證集(validation / val)

  • 用途:在訓練階段測試模型,並以此調整模型參數的資料集
  • 占比:1 成
  • 說明:就像是模擬考,用來觀察練習的情形,測驗有哪些弱點盲區,協助調整學習策略(例如模型架構或學習率)。這組資料模型「看過但不學習」

測試集(test)

  • 用途:最終測驗模型好壞的資料集
  • 占比:1 成
  • 說明:就像最後真正的考卷,目的是測試學得好不好,能不能應用在新問題上,所以資料一定是模型沒看過的




切分資料集

合併資料集

這次下載來練習的是 openai/gsm8k,包含 8.5K 道高品質、多樣性小學數學應用題,但因為他本身就有分成訓練集、測驗集,所以我們先來合併一下

from datasets import load_dataset, concatenate_datasets

dataset = load_dataset("openai/gsm8k", "main")
dataset = concatenate_datasets([dataset["train"], dataset["test"]]) # 結合兩個資料集
print(dataset)
# Dataset({
# features: ['question', 'answer'],
# num_rows: 8792
# })​



分割資料集

data = dataset.train_test_split(train_size=0.8)
data_split = data["test"].train_test_split(test_size=0.5)
data_split["validation"] = data_split.pop("train")
data_split["train"] = data["train"]

print(data_split)
# DatasetDict({
# test: Dataset({
# features: ['question', 'answer'],
# num_rows: 880
# })
# validation: Dataset({
# features: ['question', 'answer'],
# num_rows: 879
# })
# train: Dataset({
# features: ['question', 'answer'],
# num_rows: 7033
# })
# })
    • 第一行:用 .train_test_split() 將原本的資料集分成 train 跟 test,訓練集占整體 0.8
    • 第二行:將只占原本 0.2 的測試集單獨切分成 train 跟 test,各占 0.5(相當於各占原本的 0.1)
    • 第三行:將 train 更改為 validation
    • 第四行:最後再將原本的 train 加到新的資料集



差不多就是這樣,我好像已經好一段時間沒更新了😅

最近差不多就是開始進入一個倦怠期,如果有什麼激勵的文章可以推薦給我~

我會努力更新的!下篇見~

留言
avatar-img
留言分享你的想法!
avatar-img
の倉的程式小天地
2會員
26內容數
熱愛做志工的大學生 誤打誤撞跑去讀資管系 既然來到了資管系,那就學習新技能來幫助他人
2025/07/16
大家都知道,訓練一個完整的模型需要上萬筆資料,而資料的取得往往是最令人頭痛的地方 在知道如何下載前,先來談談「資料集 (Dataset)」這個東西 顧名思義,資料集就是指資料的集合,而且最重要的是要能在電腦中處理...
Thumbnail
2025/07/16
大家都知道,訓練一個完整的模型需要上萬筆資料,而資料的取得往往是最令人頭痛的地方 在知道如何下載前,先來談談「資料集 (Dataset)」這個東西 顧名思義,資料集就是指資料的集合,而且最重要的是要能在電腦中處理...
Thumbnail
2025/07/13
上一篇只講了 Tokenizer 最快的用法,但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼,但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token
Thumbnail
2025/07/13
上一篇只講了 Tokenizer 最快的用法,但仔細想想還是寫得再詳細一點好了 tokenizer() 可以將一串句子變成電腦看得懂的編碼,但他其實包含三個動作 1. 將句子拆分成一個一個字詞 2. 將字詞轉換成編碼 3. 添加 Special Token
Thumbnail
2025/07/13
今天要講的是 Hugging Face 貼心準備的工具包,歸屬在 Transformers 中的 Tokenizer (分詞器)
Thumbnail
2025/07/13
今天要講的是 Hugging Face 貼心準備的工具包,歸屬在 Transformers 中的 Tokenizer (分詞器)
Thumbnail
看更多
你可能也想看
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
讀完感覺很滿,卻不知道從何說起,我腦袋跑過非常多回憶與關係,不知不覺也詩意起來。大概是過多情緒被精緻化了,必須小心翼翼捧著這些感覺,要在這些感覺變零碎以前寫出來才行。
Thumbnail
讀完感覺很滿,卻不知道從何說起,我腦袋跑過非常多回憶與關係,不知不覺也詩意起來。大概是過多情緒被精緻化了,必須小心翼翼捧著這些感覺,要在這些感覺變零碎以前寫出來才行。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
前陣子在準備三個報告跟三個作品集(類似論文) 內容有:1.語言學中語言景觀的研究與觀察,2.選一家歐洲的公司並觀察它如何進行內外溝通,3.跨文化的產品or廣告or文字使用比較 可能由於溝通上或學習環境上的文化差異,及內容可呈現的範圍很大,儘管找教授確認題目方向後,還是有點怕怕的,怕離題,怕內容不
Thumbnail
前陣子在準備三個報告跟三個作品集(類似論文) 內容有:1.語言學中語言景觀的研究與觀察,2.選一家歐洲的公司並觀察它如何進行內外溝通,3.跨文化的產品or廣告or文字使用比較 可能由於溝通上或學習環境上的文化差異,及內容可呈現的範圍很大,儘管找教授確認題目方向後,還是有點怕怕的,怕離題,怕內容不
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
這邊統整了過往喜特先生發布過的「資料驗證」系列文! 資料驗證是個「驗證資料是否符合某條件的機制」,我們通常會用它來避免別人輸入無效的值,減少錯誤的發生。你可以按照順序慢慢學習,把資料驗證這功能一次搞懂!
Thumbnail
這邊統整了過往喜特先生發布過的「資料驗證」系列文! 資料驗證是個「驗證資料是否符合某條件的機制」,我們通常會用它來避免別人輸入無效的值,減少錯誤的發生。你可以按照順序慢慢學習,把資料驗證這功能一次搞懂!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News