【2025 夏日精選-4.5】解析文字的分詞器-Tokenizer (補)

發佈於2025 夏日精選

2025/07/27 更新2025/07/13 發佈閱讀 5 分鐘

上一篇只講了 Tokenizer 最快的用法，但仔細想想還是寫得再詳細一點好了

昨天的 tokenizer() 可以將一串句子變成電腦看得懂的編碼，但他其實包含三個動作

將句子拆分成一個一個字詞
將字詞轉換成編碼
添加 Special Token

這篇就一步一步慢慢走，解釋一下 tokenizer 底下的一些方法，也來試試上一篇底下提過的中文模型 bert-base-chinese

from transformers import AutoTokenizer

string = "臣本布衣，躬耕於南陽，苟全性命於亂世，不求聞達于諸侯。"
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

Mohamed Marey on Unsplash

將句子拆分成字詞：.tokenize()

word = tokenizer.tokenize(string)
print(word)
# ['臣', '本', '布', '衣', '，', '躬', '耕', '於', '南', '陽', '，', '苟', '全', '性', '命', '於', '亂', '世', '，', '不', '求', '聞', '達', '于', '諸', '侯', '。']

插播一下，如果用的是英文，會發現模型的分詞器不是單純靠空格去區分每個詞，像transformer就會分為 transform 和 ##er，這個分詞法稱為 Subword Tokenization，有興趣的朋友可以看這一篇，我覺得解釋得很詳細

將字詞轉換成編碼：.convert_tokens_to_ids()

id = tokenizer.convert_tokens_to_ids(word)
print(id)
# [5628, 3315, 2357, 6132, 8024, 6717, 5449, 3176, 1298, 7382, 8024, 5732, 1059, 2595, 1462, 3176, 748, 686, 8024, 679, 3724, 5472, 6888, 754, 6328, 908, 511]

會發現他只是很單純的把每個字轉成對應的編碼，並沒有標示句子開頭的 [CLS] 跟結尾的 [SEP]，所以要用另外一個方法把這些 Special Token 加進去

添加 Special Token：.prepare_for_model()

token = tokenizer.prepare_for_model(id)
print(token)
# {'input_ids': [101, 5628, 3315, 2357, 6132, 8024, 6717, 5449, 3176, 1298, 7382, 8024, 5732, 1059, 2595, 1462, 3176, 748, 686, 8024, 679, 3724, 5472, 6888, 754, 6328, 908, 511, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

你會發現跟昨天的輸出結果一模一樣，因為他就是將編碼串轉換成適合輸入到模型的樣子

解碼還原：.decode()

orignal = tokenizer.decode(token['input_ids'])
print(orignal)
# [CLS] 臣 本 布 衣 ， 躬 耕 於 南 陽 ， 苟 全 性 命 於 亂 世 ， 不 求 聞 達 于 諸 侯 。 [SEP]

其實只要做到上一步就好了，畢竟沒有必要好不容易編碼完，又再解碼回去

這邊要注意的是，因為上一步輸出的是字典，所以要指定 input_ids 這個 key 的 value

總整理

.tokenize()：將句子拆分成字詞
.convert_tokens_to_ids()：將字詞轉換成編碼
.prepare_for_model()：添加 Special Token
上一篇用到的 tokenizer() 就是以上三個方法的集合體
.decode()：解碼還原

喜歡我的內容也請幫我按個讚喔～非常感謝🥹

の倉的程式小天地2025 夏日精選建構AI

留言

留言分享你的想法！

の倉的程式小天地

6會員

32內容數

熱愛做志工的大學生誤打誤撞跑去讀資管系既然來到了資管系，那就學習新技能來幫助他人

の倉的程式小天地的其他內容

2025/07/13

【2025 夏日精選-4】解析文字的分詞器-Tokenizer

今天要講的是 Hugging Face 貼心準備的工具包，歸屬在 Transformers 中的 Tokenizer (分詞器)

2025/07/13

【2025 夏日精選-4】解析文字的分詞器-Tokenizer

今天要講的是 Hugging Face 貼心準備的工具包，歸屬在 Transformers 中的 Tokenizer (分詞器)

2025/07/13

【2025 夏日精選-3】要讓電腦看得懂，第一步要先分詞

電腦沒辦法理解人類的語言，所以需要先將文字轉換成電腦能讀懂的數字，而我們不可能把一整句話直接編碼，例如："I love you."=1、"I love him."=2...，這樣編碼到最後會變成天文數字，所以在那之前我們需要先將一句話分成最小單位，也就是「詞」

2025/07/13

【2025 夏日精選-3】要讓電腦看得懂，第一步要先分詞

2025/07/09

【2025 夏日精選-2】史上最強捷徑-Pipeline

上一篇有提到過「寫一行就能使用模型的封裝工具包 pipeline」，至於為什麼他可以寫一行就解決呢？真的有那麼神嗎？

2025/07/09

【2025 夏日精選-2】史上最強捷徑-Pipeline

上一篇有提到過「寫一行就能使用模型的封裝工具包 pipeline」，至於為什麼他可以寫一行就解決呢？真的有那麼神嗎？

看更多

你可能也想看

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

覺得黏在額頭上的"條碼瀏海"很阿雜嗎？日本熱銷的「KOIZUMI迷你瀏海梳」，不僅小巧便攜，更能快速加熱造型，無論是齊瀏海、空氣瀏海還是韓系碎蓋髮，都能輕鬆打理！瀏海順了，一整天心情就好了！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

走完朝聖之路和TMB後，我發現真正能撐住長時間健行的，不只是腳力，而是那些讓生活更舒服的小物。這篇整理了我在TMB實測後覺得超好用的三樣登山神器——防水襪、肥皂袋、速乾毛巾，每一樣都讓旅程更輕鬆！

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 43

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI#ai#PromptEngineering

2024/06/22

Learn AI 不 BI

AI說書 - 從0開始 - 40

#AI#ai#PromptEngineering

2024/06/22

外語自學大丈夫！語感王私藏祕笈

日文單字「やってのける」是什麼意思

今天我們要用這組單字學一個日文實用句型。

#やってのける的意思#排除萬難的日文#日文單字

2024/06/13

外語自學大丈夫！語感王私藏祕笈

日文單字「やってのける」是什麼意思

今天我們要用這組單字學一個日文實用句型。

#やってのける的意思#排除萬難的日文#日文單字

2024/06/13

小松鼠的演算法樂園

物以類聚尋找共同的字元_字典應用_Leetcode #1002

給定一個字串陣列，請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數，和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。

#python#leetcode#algorithm

2024/06/05

小松鼠的演算法樂園

物以類聚尋找共同的字元_字典應用_Leetcode #1002

#python#leetcode#algorithm

2024/06/05

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI#TextToSpeech#Pytorch

2024/05/27

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

#AI#TextToSpeech#Pytorch

2024/05/27

空間

文字的「失溫症」：當溝通失去聲音，誰來決定你的情緒？

透過適當的語言和文字表達，人們可以溝通訊息和態度。轉折詞的運用和標點符號的使用會影響溝通的準確性和情緒表達。

#通訊軟體#LINE

2024/05/26

空間

文字的「失溫症」：當溝通失去聲音，誰來決定你的情緒？

透過適當的語言和文字表達，人們可以溝通訊息和態度。轉折詞的運用和標點符號的使用會影響溝通的準確性和情緒表達。

#通訊軟體#LINE

2024/05/26

佚名：語言、歷史與生活

【3-4.1】開始表達──句子的大小與分類

這個系列的文章希望讓大家能夠學習一些語言學的概念，並且利用它們更有效率地學習各種語言。在文法篇的部分，希望大家瞭解有關語言使用的規則，讓大家能夠更輕鬆地去學習一個語言。前面已經介紹語言的基本語序、修飾語序，瞭解每個語言都又不同的排列規則後，我們就可以開始學習一個語言要如何表達一個完整句子。

#語言#學習#語言學

2024/03/17

佚名：語言、歷史與生活

【3-4.1】開始表達──句子的大小與分類

#語言#學習#語言學

2024/03/17

Dodson的沙龍

Emojiton - 將文字轉化為表情符號的AI工具

Emojiton是一個能將文字轉化為表情符號的AI工具，將幫助你解決文案表情符號的挑選困擾，讓你的文案更加生動。立刻到Emojiton網站使用看看，輸入想要的文字，它就會自動推薦Emoji給你使用了。立刻收藏、追蹤、分享，學習更多關於個人品牌建立和AI工具的教學!

#學習#品牌

2024/02/16

Dodson的沙龍

Emojiton - 將文字轉化為表情符號的AI工具

#學習#品牌

2024/02/16

佚名：語言、歷史與生活

【用語言學學語言】系列簡介與文章目錄

這個系列文章希望能走出語言研究的學術象牙塔，用簡單口語的文字介紹當今語言學家對於不同語言的觀察，並將這些歸納好的規則運用在語言的學習。

2023/10/16

2023/10/16

我們在前面已經分別討論了敘事句、有無句、判斷句、表態句的各種定義與特性，本章會把這些特性統整起來，並且提供大家一些快速判斷的方法，希望對大家的考試有所幫助喔！

2023/09/24

2023/09/24

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News