【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer

阿Han

發佈於阿Han的軟體技術棧 💡

更新於 2023/07/15發佈於 2023/07/10閱讀時間約 6 分鐘

前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」，我們都知道「詞」是NLP世界中的最小單元，關於詞的知識歡迎參考:

簡單來說，主要的目的是將文本轉換為模型可以處理的數據， But…，他主要的任務並不是像jieba…等斷詞器一樣，而是很單純的扮演文字與模型的橋接器。

經過上述知識的洗禮，我們對於詞也具有一定的基礎認知，在「Hugging Face」的平台裡，處理詞也提供了非常好用的Tokenizer工具，就讓我們好好的來認識一下唄！

兩種標記技巧

詞(Word-based)

基於「詞」的標記方式會將一段文本進行斷詞，假設一文本如下:

Jim Henson was a puppeteer

可以被斷詞成:

Jim
Henson
was
a
puppeteer

最基本的方法有「基於空格」、「基於標點符號」…，目前處理斷詞的框架有「NLTK」、「SpaCy」、「Gensim」等，不妨親自玩玩看斷詞，未來Hugging Face的斷詞層若需要抽換成特定領域語言時也會較為容易。

字元(Character-based)

基於「字元」的標記方式會將文字拆成單一的字符，這種方式的詞彙量較小，但帶來的資訊量價值大，因為不同語言的詞與詞之間是具有語言學組合的關係，也會表達出不同的意義。

Jim Henson was a puppeteer
J
i
m
.
.
.

有沒有更好的「斷詞」處理方式？

BPE、WordPiece、SentencePiece、Unigram分別適用於不同的語言模型，後續也會獨立章節來介紹這部份。

標記化

我們就實際來使用Hugging Face的API來進行說明，這邊我們使用「ckiplab/bert-tiny-chinese」這個模型來進行。

from transformers import AutoTokenizer

# Initialize tokenzier and model
tokenizer = AutoTokenizer.from_pretrained("ckiplab/bert-tiny-chinese")

# Input text
text = "今天的天氣很好。"
tokens = tokenizer.tokenize(text)
tokens

# ['今', '天', '的', '天', '氣', '很', '好', '。']

轉換成ID編碼

當我們第一步將文字拆為單詞之後通常稱為標記(Token)，第二步就是將這些標記(Token)轉為模型看得懂的數字(ID)。

ids = tokenizer.convert_tokens_to_ids(tokens)
ids

# [791, 1921, 4638, 1921, 3706, 2523, 1962, 511]

解碼

我們也可以透過解碼函式將ID解回文字。

decoded_string = tokenizer.decode([791, 1921, 4638, 1921, 3706, 2523, 1962, 511])
decoded_string

# 今 天 的 天 氣 很 好 。

這就是Tokenizer的主要目的，扮演著模型與文字之間的轉換器。

加載與儲存

加載的部份。

from transformers import AutoTokenizer

# Initialize tokenzier and model
tokenizer = AutoTokenizer.from_pretrained("ckiplab/bert-tiny-chinese")

經過加工後儲存成自訂的斷詞器可以這樣。

tokenizer.save_pretrained("custom")

關於更進階的的使用方式可以參考「https://huggingface.co/learn/nlp-course/zh-TW/chapter6/3?fw=pt」。

今天的範例都在這裡「📦 huggingface/tokenizers.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

結語

初步了解到Hugging Face架構之後深深感受到標準化的好處，有點像是鴻海MIH平台一般，賦能給各個開發者到這個平台共同發展AI模型，雖說獲利模式是否足以支撐起一家公司仍待時間進行驗證，但平台已經讓各種NLP技術的發展更快速，也縮小著技術屏障的隔閡。

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入？

歡迎加入一起練習寫作，賺取知識！

更多關於【Hugging Face 系列】…

#AI

#Huggingface

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

留言分享你的想法！

阿Han的沙龍

131會員

292內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

看更多

你可能也想看

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

阿Han的沙龍

【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition)

這次來介紹一下NLP自然語言處理中重要的一個任務「命名實體識別(Named Entity Recognition)」，這個任務主要識別出「人名」、「地名」、「公司」…等實體，透過這些實體辨識結果，可以近一步的理解意圖，甚至判斷出該文章主要在講什麼重點…等。關於更多NER的細節歡迎閱讀: 「

#AI#ChatGPT#Huggingface

2023/07/11

阿Han的沙龍

【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition)

#AI#ChatGPT#Huggingface

2023/07/11

阿Han的沙龍

【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer

前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」，我們都知道「詞」是NLP世界中的最小單元，關於詞的知識歡迎參考: 簡單來說，主要的目的是將文本轉換為模型可以處理的數據， But…，他主要的任務並不是像jieba…等斷詞器一樣，而是很單純的扮演文字與模型的橋

#AI#Huggingface

2023/07/10

阿Han的沙龍

【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer

#AI#Huggingface

2023/07/10

阿Han的沙龍

【自然語言處理 - 概念篇】詞性標注POS在NLP的世界扮演什麼樣的角色呢?

Part-of-Speech Tagging, POS是詞性標注的全名, 主要為詞彙標上語言中的語法類別或用途, 再進行後續的分析與處理, 就想像成文件歸檔的動作, 每個文件貼上一個標籤類別, 而透過這些標籤類別進行關聯性的分類歸檔。一個句子最基本的組成單位是「詞」這在我們之前幾個篇章都有談過，如

#AI#NLP

2023/07/09

阿Han的沙龍

【自然語言處理 - 概念篇】詞性標注POS在NLP的世界扮演什麼樣的角色呢?

#AI#NLP

2023/07/09

阿Han的沙龍

【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

我們有想過嗎？一句簡單的話語, 竟然隱含著豐富的句法結構與規則, 而句法就是依著這樣的規則組合而成, 形成一個完整的句子, 隨著資料量越大, 透過規則與關聯性, 機器就能夠根據我們的話語進行拆解, 並試圖理解我們的意圖進行更貼心的服務, 隨著Chatgpt的興起, 我們也見證到AI的新里程碑, 資

#NLP#AI

2023/07/08

阿Han的沙龍

【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

#NLP#AI

2023/07/08

阿Han的沙龍

【Hugging Face】Ep.3 前往Datasets掏金趣

上一篇「【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官」我們學習到如何架設起Hugging Face的環境了，接下來我們就介紹一下重要的Datasets吧！ AI模型訓練最重要的燃料就是「資料」了，而HuggingFace的Dataset也公開了不少的資料集，非常適合我們進

#AI#Huggingface

2023/07/07

阿Han的沙龍

【Hugging Face】Ep.3 前往Datasets掏金趣

#AI#Huggingface

2023/07/07

阿Han的沙龍

【自然語言處理 — 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧

詞跟詞之間的距離有多近呢？如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起，某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計，而這些詞在這批資料集之中所佔的位置依照距離都能夠

#NLP#AI#word2vec

2023/06/05

阿Han的沙龍

【自然語言處理 — 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧

#NLP#AI#word2vec

2023/06/05

SDFusion

探索 Stable Diffusion 反向詞

本文探討了反向詞（Negative Embedding）的概念，並介紹了在 Stable Diffusion WebUI 中使用的幾種模型，包括 EasyNegative、bad_prompt_version2、bad-hands-5 和 Deep Negative V1.x。這些模型的主要目的是在

#反向#StableDiffusion#EasyNegative

2023/06/03

SDFusion

探索 Stable Diffusion 反向詞

#反向#StableDiffusion#EasyNegative

2023/06/03

阿Han的沙龍

【自然語言處理 — 概念篇】最基礎的Bag-of-Words模型是什麼呢？

常常我們在進行NLP討論時，不管哪一種NLP任務都會偶爾聽到BOW這個詞，原來全名就是「Bag-of-words」由名稱就可以知道這是在處理NLP任務之前的基礎工事，將一整篇文章切碎成一段語句，甚至是最小單位的「詞」，而這些詞又如何表述關係或者進一步的使用，試圖讓機器可以理解我們人類的詞語，就是基於

#AI#python#NLP

2023/05/26

阿Han的沙龍

【自然語言處理 — 概念篇】最基礎的Bag-of-Words模型是什麼呢？

#AI#python#NLP

2023/05/26