【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer

阿Han

2023/07/10閱讀時間約 6 分鐘

前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」，我們都知道「詞」是NLP世界中的最小單元，關於詞的知識歡迎參考:

簡單來說，主要的目的是將文本轉換為模型可以處理的數據， But…，他主要的任務並不是像jieba…等斷詞器一樣，而是很單純的扮演文字與模型的橋接器。

經過上述知識的洗禮，我們對於詞也具有一定的基礎認知，在「Hugging Face」的平台裡，處理詞也提供了非常好用的Tokenizer工具，就讓我們好好的來認識一下唄！

兩種標記技巧

詞(Word-based)

基於「詞」的標記方式會將一段文本進行斷詞，假設一文本如下:

Jim Henson was a puppeteer

可以被斷詞成:

Jim
Henson
was
a
puppeteer

最基本的方法有「基於空格」、「基於標點符號」…，目前處理斷詞的框架有「NLTK」、「SpaCy」、「Gensim」等，不妨親自玩玩看斷詞，未來Hugging Face的斷詞層若需要抽換成特定領域語言時也會較為容易。

字元(Character-based)

基於「字元」的標記方式會將文字拆成單一的字符，這種方式的詞彙量較小，但帶來的資訊量價值大，因為不同語言的詞與詞之間是具有語言學組合的關係，也會表達出不同的意義。

Jim Henson was a puppeteer
J
i
m
.
.
.

有沒有更好的「斷詞」處理方式？

BPE、WordPiece、SentencePiece、Unigram分別適用於不同的語言模型，後續也會獨立章節來介紹這部份。

標記化

我們就實際來使用Hugging Face的API來進行說明，這邊我們使用「ckiplab/bert-tiny-chinese」這個模型來進行。

from transformers import AutoTokenizer

# Initialize tokenzier and model
tokenizer = AutoTokenizer.from_pretrained("ckiplab/bert-tiny-chinese")

# Input text
text = "今天的天氣很好。"
tokens = tokenizer.tokenize(text)
tokens

# ['今', '天', '的', '天', '氣', '很', '好', '。']

轉換成ID編碼

當我們第一步將文字拆為單詞之後通常稱為標記(Token)，第二步就是將這些標記(Token)轉為模型看得懂的數字(ID)。

ids = tokenizer.convert_tokens_to_ids(tokens)
ids

# [791, 1921, 4638, 1921, 3706, 2523, 1962, 511]

解碼

我們也可以透過解碼函式將ID解回文字。

decoded_string = tokenizer.decode([791, 1921, 4638, 1921, 3706, 2523, 1962, 511])
decoded_string

# 今 天 的 天 氣 很 好 。

這就是Tokenizer的主要目的，扮演著模型與文字之間的轉換器。

加載與儲存

加載的部份。

from transformers import AutoTokenizer

# Initialize tokenzier and model
tokenizer = AutoTokenizer.from_pretrained("ckiplab/bert-tiny-chinese")

經過加工後儲存成自訂的斷詞器可以這樣。

tokenizer.save_pretrained("custom")

關於更進階的的使用方式可以參考「https://huggingface.co/learn/nlp-course/zh-TW/chapter6/3?fw=pt」。

今天的範例都在這裡「📦 huggingface/tokenizers.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

結語

初步了解到Hugging Face架構之後深深感受到標準化的好處，有點像是鴻海MIH平台一般，賦能給各個開發者到這個平台共同發展AI模型，雖說獲利模式是否足以支撐起一家公司仍待時間進行驗證，但平台已經讓各種NLP技術的發展更快速，也縮小著技術屏障的隔閡。

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入？

歡迎加入一起練習寫作，賺取知識！

更多關於【Hugging Face 系列】…

為什麼會看到廣告

#AI

#Huggingface

阿Han的沙龍阿Han的軟體技術棧 💡AI

阿Han的沙龍

113會員

255內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

留言0

查看全部

發表第一個留言支持創作者！

阿Han的沙龍的其他內容

【自然語言處理 - 概念篇】詞性標注POS在NLP的世界扮演什麼樣的角色呢?

Part-of-Speech Tagging, POS是詞性標注的全名, 主要為詞彙標上語言中的語法類別或用途, 再進行後續的分析與處理, 就想像成文件歸檔的動作, 每個文件貼上一個標籤類別, 而透過這些標籤類別進行關聯性的分類歸檔。一個句子最基本的組成單位是「詞」這在我們之前幾個篇章都有談過，如

#AI #NLP

【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

我們有想過嗎？一句簡單的話語, 竟然隱含著豐富的句法結構與規則, 而句法就是依著這樣的規則組合而成, 形成一個完整的句子, 隨著資料量越大, 透過規則與關聯性, 機器就能夠根據我們的話語進行拆解, 並試圖理解我們的意圖進行更貼心的服務, 隨著Chatgpt的興起, 我們也見證到AI的新里程碑, 資

#NLP #AI

【Hugging Face】Ep.3 前往Datasets掏金趣

上一篇「【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官」我們學習到如何架設起Hugging Face的環境了，接下來我們就介紹一下重要的Datasets吧！ AI模型訓練最重要的燃料就是「資料」了，而HuggingFace的Dataset也公開了不少的資料集，非常適合我們進

#AI #Huggingface

【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」，而這次就來實際動手進行開發，讓我們自己的AI自己做。由於AI模型的訓練往往都會比較耗時，因此建議需要有GPU環境會比較有效率一些，否則訓練模行動輒好幾個小時才能看到結果，一

#AI #Huggingface #ChatGPT

【Hugging Face】Ep.1 平凡人也能玩的起的AI平台

它到底是什麼？簡單說Hugging Face是人工智慧開源平台，開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型，上萬資料庫，包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。理念與目標我們都知道最近火紅的O

#AI #ChatGPT #AI創作

【💎 Prompt Engineering 提示工程基礎】挖坑給ChatGPT跳的越獄(Jailbreaking)法

正常來說這種大型LLM公司都會有內容審查功能，照理說不應該讓AI回答有害的、暴力的…等負面回應，以Chatgpt來說經實驗後確實是如此，但仍可以透過欺騙的方式讓它間接的回答，有一點挖坑給AI跳的概念…。好人形象的ChatGPT 非常聰明的閃避掉違法的問題，看來內部已經經過嚴格的審查過程，

#ChatGPT #AI

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

Rorome的沙龍

2023/05/03

Hugging chat

Ai made a article tells everyone 從前，在一座摩天大樓林立、街道繁忙的繁華都市中，住著一群朋友，他們一直在尋找新的方式讓他們的生活更輕鬆、更方便。有一天，他們偶然發現了一件令人驚奇的事情——一個可以執行任務、提供信息，甚至可以進行隨意交談的虛擬助手。起初，他們

外派先修班

2020/11/12

台灣媒體對越南疫情報導底下看不見的、我們的外派生活：你願意為了回家賭一把嗎?

2020年，一場席捲全球的疫情不只打亂了全球產業脈動，也讓漂流海外的我們感到十分無奈。昨天看到一則新聞寫出了全球外派台人的縮影。這篇文章主要是想記錄在台灣媒體對於越南疫情報導下看不見的、我們的生活，以及我們在當地面臨的挑戰。

#越南 #外派 #東南亞外派

Fornik Tsai 的沙龍

2020/11/12

政治立場

Jacob Morch on Unsplash 我對政治沒有什麼立場，如果你問我。我支持九二共識嗎？當然，反正一個中國，各自表述，也就是用白話文說，你認為的一個中國，我認為的一個中國，但不是你認為的「一個中國」，因為我把中國與台灣分得清清楚楚。中國就是中國，台灣就是台灣，你想要把我納入你的「一個中

#政治立場 #政治 #自由派

432Hz療心室的沙龍

2020/11/12

原來我好心疼我自己

原來我好心疼我自己當你進入到睡眠狀態的時候你會看見那個在你內心深處的自己

佩妮的沙龍

2020/11/12

正的負面行銷

獨立自售和受人雇的行銷人員創意的自由範疇

#觀點 #社群品牌經營

凱西聽英樂的沙龍

2020/11/12

[聽英] Human 生而為人，不是要活在別人嘴裡

大家都一樣是人，何苦為難彼此? 還記得那時瘋狂的A thousand years，超愛的暮光之城，狼人、吸血鬼(你/妳喜歡裡面哪個角色呢?)，今天這首Human則是滿滿的....

#自我成長 #傷害 #傷痕

bravejim的沙龍

2020/11/12

[基隆美食]詹家素食位於基隆廟口夜市的價格經濟、實惠素食館，郵輪旅遊網推薦為來到基隆必吃的美食店家之一

在基隆市中心要找素食店家其實並不是很多，詹家素食就是一家基隆的經典店家之一，不但素食者喜歡吃，連非素食者也說讚。這家素食館還被郵輪旅遊網，推薦為來到基隆必吃的美食店家之一。詹家素食相關資訊:: 基隆市仁愛區仁四路20號 02 2426 7159 PM10:00AM

方格子 vocus 官方沙龍

2024/10/21

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

#Faker #電競 #運動

Rorome的沙龍

2023/05/03

Hugging chat

外派先修班

2020/11/12

台灣媒體對越南疫情報導底下看不見的、我們的外派生活：你願意為了回家賭一把嗎?

#越南 #外派 #東南亞外派

Fornik Tsai 的沙龍

2020/11/12

政治立場

#政治立場 #政治 #自由派

432Hz療心室的沙龍

2020/11/12

原來我好心疼我自己

原來我好心疼我自己當你進入到睡眠狀態的時候你會看見那個在你內心深處的自己

佩妮的沙龍

2020/11/12

正的負面行銷

獨立自售和受人雇的行銷人員創意的自由範疇

#觀點 #社群品牌經營

凱西聽英樂的沙龍

2020/11/12

[聽英] Human 生而為人，不是要活在別人嘴裡

#自我成長 #傷害 #傷痕

bravejim的沙龍

2020/11/12

【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer

兩種標記技巧

標記化

加載與儲存

結語

更多關於【Hugging Face 系列】…

【自然語言處理 - 概念篇】 詞性標注POS在NLP的世界扮演什麼樣的角色呢?

【自然語言處理 - 概念篇】 拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

【Hugging Face】Ep.3 前往Datasets掏金趣

【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

【Hugging Face】Ep.1 平凡人也能玩的起的AI平台

【💎 Prompt Engineering 提示工程基礎】挖坑給ChatGPT跳的越獄(Jailbreaking)法

【自然語言處理 - 概念篇】 詞性標注POS在NLP的世界扮演什麼樣的角色呢?

【自然語言處理 - 概念篇】 拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

【Hugging Face】Ep.3 前往Datasets掏金趣

【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

【Hugging Face】Ep.1 平凡人也能玩的起的AI平台

【💎 Prompt Engineering 提示工程基礎】挖坑給ChatGPT跳的越獄(Jailbreaking)法

你可能也想看

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

美國大選『終局之戰』（Endgame）即將展開， 美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Hugging chat

台灣媒體對越南疫情報導底下看不見的、我們的外派生活：你願意為了回家賭一把嗎?

政治立場

原來我好心疼我自己

正的負面行銷

[聽英] Human 生而為人，不是要活在別人嘴裡

[基隆美食]詹家素食位於基隆廟口夜市的價格經濟、實惠素食館，郵輪旅遊網推薦為來到基隆必吃的美食店家之一

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

美國大選『終局之戰』（Endgame）即將展開， 美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Hugging chat

台灣媒體對越南疫情報導底下看不見的、我們的外派生活：你願意為了回家賭一把嗎?

政治立場

原來我好心疼我自己

正的負面行銷

[聽英] Human 生而為人，不是要活在別人嘴裡

[基隆美食]詹家素食位於基隆廟口夜市的價格經濟、實惠素食館，郵輪旅遊網推薦為來到基隆必吃的美食店家之一

【自然語言處理 - 概念篇】詞性標注POS在NLP的世界扮演什麼樣的角色呢?

【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

【自然語言處理 - 概念篇】詞性標注POS在NLP的世界扮演什麼樣的角色呢?

【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）