【Hugging Face】Ep.3 前往Datasets掏金趣

閱讀時間約 9 分鐘
上一篇「【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官」我們學習到如何架設起Hugging Face的環境了,接下來我們就介紹一下重要的Datasets吧!
AI模型訓練最重要的燃料就是「資料」了, 而HuggingFace的Dataset也公開了不少的資料集, 非常適合我們進行練功, 就讓我們先從dataset的部份開始吧!

鎖定目標,縮小範圍

掏金之前最重要的就是找到地點, 而如何快速的找到地點呢? HuggingFace也提供了非常友善的搜尋功能, 總共分成三塊, 左上角依照任務、模型大小…等主題選定, 而每種主題下方包含著不同的子類別,最終搭配關鍵字搜尋出自己需要的資料集。
假設我們選了情緒分類的資料集, 那麼可以來看看資料集的內容長怎樣, 可以觀察到其實資料集很簡單, 只有「文字」與對應的「標籤」。

玩轉資料集

安裝套件
!pip install datasets
載入資料集
使用load_dataset_builder()來載入資料集, 這次載入的資料集為「imdb
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("imdb")

檢查資料集資訊

使用load_dataset_builder()來檢查資料集, 這次檢查的資料集為「imdb
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("imdb")
基本資訊
可以得知這是一個電影的資料集, 包含正向與負向的標籤。
print(ds_builder.info.description)
# Large Movie Review Dataset.

print(ds_builder.info.features)
# This is a dataset for binary sentiment classification containing substantially more data than previous benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for testing. There is additional unlabeled data for use as well.
{'text': Value(dtype='string', id=None), 'label': ClassLabel(names=['neg', 'pos'], id=None)}

索引值操作

from datasets import load_dataset

# 載入訓練的資料集
ds = load_dataset("imdb", split='train')
# 第一列
ds[0]
# 最後一列
ds[-1]

過濾

資料集雖然猶如黃金, 但其實夾雜著許多的雜訊, 我們可以透過「過濾」的方式, 篩選出我們需要的特定數據, 例如: 文字包含「U.S」且長度不要太長的資料才要進行訓練, 因此我們可以這樣做。
ds1 = ds.filter(lambda x: 'U.S' in x['text'] and len(x['text']) < 500)

ds1[:3]
{
'text': [
'It is not un-common to see U.S. re-makes of foreign movies that fall flat on their face, but here is the flip side!!! This is an awful re-make of the U.S. movie "Wide Awake" by the British!<br /><br />"Wide Awake" is strange but entertaining and funny! "Liam" on the other hand is just strange. I must give credit to "Liam" for one thing, and that is making it clear that I made the right choice in changing my religion!',
'I saw this movie on Comedy Central a few times. This movie was pretty good. It\\'s an interesting adventure with the life of Sunny Davis, who is arranged to marry the king of Ohtar, so that the U.S. can get an army base there to balance power in the Middle East. Some good jokes, including "Sunnygate." I also just loved the ending theme. It gave me great political spirit. Ten out of ten was my rating for this movie.',
'"Antwone Fisher" tells of a young black U.S. Navy enlisted man and product of childhood abuse and neglect (Luke) whose hostility toward others gets him a stint with the base shrink (Washington) leading to introspection, self appraisal, and a return to his roots. Pat, sanitized, and sentimental, "Antwone Fisher" is a solid feel-good flick about the reconciliation of past regrets and closure. Good old Hollywood style entertainment family values entertainment with just a hint of corn. (B)'],
'label': [0, 1, 1]
}

更多的操作方式

上面我們介紹了基本用法,需要更多資料集的操作方式請參考「datasets/process」。
今天的範例都在這裡「📦huggingface/hugging_face_datasets.ipynb」歡迎自行取用。

結語

看起來HuggingFace除了很好的管控資料集之外, 也設計了非常強大的資料集處理API, 最重要的是非常有遠見, 一開始就制定好規範, 大家只要照著標準化的方式上傳資料集就能夠使用標準的API進行資料集處理。
喜歡撰寫文章的你,不妨來了解一下:
歡迎加入一起練習寫作,賺取知識!

更多關於【Hugging Face 系列】…

為什麼會看到廣告
109會員
250內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。 由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一
它到底是什麼? 簡單說Hugging Face是人工智慧開源平台,開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。 理念與目標 我們都知道最近火紅的O
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
前一篇我們有提到「【Generative AI - Prompt篇】Ep.3 讓AI身歷其境的角色提示法」如何催眠AI成為專家,藉著該提示技巧讓AI可以針對該領域進行專業的回答,但…這還不夠,我們還希望AI可以更強大,可以根據我們設計的範本,進行相同規格的輸入與輸出。 我們在前面幾個篇章也玩過一些P
倖存者偏差(Survivorship bias)是一種認知偏差,指的是在觀察研究對象時,只關注了「倖存」或「成功」的部分,而忽略了已經「消失」或「失敗」的部分。 這種偏差通常發生在樣本不完整或有遺漏的情況下,而且容易導致對結果做出誤導性的評估或推論。 尤其AI的時代來臨,基石源自於數據,數據相當於燃
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。 由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一
它到底是什麼? 簡單說Hugging Face是人工智慧開源平台,開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。 理念與目標 我們都知道最近火紅的O
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
前一篇我們有提到「【Generative AI - Prompt篇】Ep.3 讓AI身歷其境的角色提示法」如何催眠AI成為專家,藉著該提示技巧讓AI可以針對該領域進行專業的回答,但…這還不夠,我們還希望AI可以更強大,可以根據我們設計的範本,進行相同規格的輸入與輸出。 我們在前面幾個篇章也玩過一些P
倖存者偏差(Survivorship bias)是一種認知偏差,指的是在觀察研究對象時,只關注了「倖存」或「成功」的部分,而忽略了已經「消失」或「失敗」的部分。 這種偏差通常發生在樣本不完整或有遺漏的情況下,而且容易導致對結果做出誤導性的評估或推論。 尤其AI的時代來臨,基石源自於數據,數據相當於燃
你可能也想看
Google News 追蹤
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Ai made a article tells everyone 從前,在一座摩天大樓林立、街道繁忙的繁華都市中,住著一群朋友,他們一直在尋找新的方式讓他們的生活更輕鬆、更方便。有一天,他們偶然發現了一件令人驚奇的事情——一個可以執行任務、提供信息,甚至可以進行隨意交談的虛擬助手。 起初,他們
Thumbnail
2020年,一場席捲全球的疫情不只打亂了全球產業脈動,也讓漂流海外的我們感到十分無奈。昨天看到一則新聞寫出了全球外派台人的縮影。 這篇文章主要是想記錄在台灣媒體對於越南疫情報導下看不見的、我們的生活,以及我們在當地面臨的挑戰。
Thumbnail
怎麼樣能把經學用在自己文學創作上呢?歷來有幾種方法。第一種是以經為詩料,作為文章的材料。這是唐宋以降編類書時常用的方法。 中國的類書基本上是文學性的,以備文士采擇,寫文章時用來引經據典。 古代文人怎麼讀這麼多書呢?滾瓜爛熟,隨口就可以引。不要怕,編好類書,寫文章時就方便了,要用什麼典故,查類書
Thumbnail
Jacob Morch on Unsplash 我對政治沒有什麼立場,如果你問我。我支持九二共識嗎?當然,反正一個中國,各自表述,也就是用白話文說,你認為的一個中國,我認為的一個中國,但不是你認為的「一個中國」,因為我把中國與台灣分得清清楚楚。中國就是中國,台灣就是台灣,你想要把我納入你的「一個中
Thumbnail
原來我好心疼我自己 當你進入到睡眠狀態的時候 你會看見那個在你內心深處的自己
Thumbnail
獨立自售和受人雇的行銷人員創意的自由範疇
Thumbnail
大家都一樣是人,何苦為難彼此? 還記得那時瘋狂的A thousand years,超愛的暮光之城,狼人、吸血鬼(你/妳喜歡裡面哪個角色呢?),今天這首Human則是滿滿的....
Thumbnail
​ 在基隆市中心要找素食店家其實並不是很多,詹家素食就是一家基隆的經典店家之一,不但素食者喜歡吃,連非素食者也說讚。這家素食館還被郵輪旅遊網,推薦為來到基隆必吃的美食店家之一。 詹家素食相關資訊:: ​ 基隆市仁愛區仁四路20號 ​ 02      2426     7159 ​ PM10:00AM
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Ai made a article tells everyone 從前,在一座摩天大樓林立、街道繁忙的繁華都市中,住著一群朋友,他們一直在尋找新的方式讓他們的生活更輕鬆、更方便。有一天,他們偶然發現了一件令人驚奇的事情——一個可以執行任務、提供信息,甚至可以進行隨意交談的虛擬助手。 起初,他們
Thumbnail
2020年,一場席捲全球的疫情不只打亂了全球產業脈動,也讓漂流海外的我們感到十分無奈。昨天看到一則新聞寫出了全球外派台人的縮影。 這篇文章主要是想記錄在台灣媒體對於越南疫情報導下看不見的、我們的生活,以及我們在當地面臨的挑戰。
Thumbnail
怎麼樣能把經學用在自己文學創作上呢?歷來有幾種方法。第一種是以經為詩料,作為文章的材料。這是唐宋以降編類書時常用的方法。 中國的類書基本上是文學性的,以備文士采擇,寫文章時用來引經據典。 古代文人怎麼讀這麼多書呢?滾瓜爛熟,隨口就可以引。不要怕,編好類書,寫文章時就方便了,要用什麼典故,查類書
Thumbnail
Jacob Morch on Unsplash 我對政治沒有什麼立場,如果你問我。我支持九二共識嗎?當然,反正一個中國,各自表述,也就是用白話文說,你認為的一個中國,我認為的一個中國,但不是你認為的「一個中國」,因為我把中國與台灣分得清清楚楚。中國就是中國,台灣就是台灣,你想要把我納入你的「一個中
Thumbnail
原來我好心疼我自己 當你進入到睡眠狀態的時候 你會看見那個在你內心深處的自己
Thumbnail
獨立自售和受人雇的行銷人員創意的自由範疇
Thumbnail
大家都一樣是人,何苦為難彼此? 還記得那時瘋狂的A thousand years,超愛的暮光之城,狼人、吸血鬼(你/妳喜歡裡面哪個角色呢?),今天這首Human則是滿滿的....
Thumbnail
​ 在基隆市中心要找素食店家其實並不是很多,詹家素食就是一家基隆的經典店家之一,不但素食者喜歡吃,連非素食者也說讚。這家素食館還被郵輪旅遊網,推薦為來到基隆必吃的美食店家之一。 詹家素食相關資訊:: ​ 基隆市仁愛區仁四路20號 ​ 02      2426     7159 ​ PM10:00AM