C006｜如何編寫一個完整的Python符元化類 Tokenizer Class？

王啟樺

2024/06/17 更新2024/06/17 發佈閱讀 4 分鐘

在Python中，

要寫一個完整的「符元化類 Tokenizer Class」，

這個Class需要的功能有：

1.「編碼 Encode」：將「文本 Text」分割成「符元 Token」。

2.「詞彙 Vocabulary」：將「符元 Token」映射到「符元ID TokenID」的「文本對整數映射 String-to-Integer Mapping」

3.「解碼 Decode」：將「符元ID TokenID」轉換為「文本 Text」的「整數對文本映射 Integer-to-String Mapping」

如此，

就完成了「文本 Text」--> 「符元 Token」--> 「符元ID TokenID」--> 「文本 Text」的循環，

這就是為什麼訓練資料中的文本，

可以透過GPT的結構，轉回AI生成的文本的整個循環。

具體的Python code如：

```python

class SimpleTokenizerV1:

def __init__(self, vocab):

self.str_to_int = vocab

self.int_to_str = {i:s for s,i in vocab.items()}

def encode(self, text):

preprocessed = re.split(r'([,.?_!"()\']|--|\s)', text)

preprocessed = [

item.strip() for item in preprocessed if item.strip()

]

ids = [self.str_to_int[s] for s in preprocessed]

return ids

def decode(self, ids):

text = " ".join([self.int_to_str[i] for i in ids])

# Replace spaces before the specified punctuations

text = re.sub(r'\s+([,.?!"()\'])', r'\1', text)

return text

```

可以看到，在`SimpleTokenizerV1`這個類的「構建子 Constructor」，

設置了「文本到整數」的映射，是輸入的「詞彙 Vocabulary」，

也設置了「整數到文本」的映射，是透過查詢「詞彙 Vocabulary」來轉回文本。

而「編碼函數 def encode」將輸入的文本先切成一個一個的「符元 Token」，

接著透過詞彙來查這些Token的ID。

而「解碼函數 def decode」將給定的一串「符元 ID Token ID」，

也是透過詞彙來轉回文本。

實際使用的例子，看起來會像是

```python

tokenizer = SimpleTokenizerV1(vocab)

text = """"It's the last he painted, you know,"

Mrs. Gisburn said with pardonable pride."""

ids = tokenizer.encode(text)

print(ids)

```

則會得到一串Token ID

```

[1, 56, 2, 850, 988, 602, 533, 746, 5, 1126, 596, 5, 1, 67, 7, 38, 851, 1108, 754, 793, 7]

```

而這串Token ID 可以透過Decoder再轉回文本

```

tokenizer.decode(ids)

```

得到結果

```

'" It\' s the last he painted, you know," Mrs. Gisburn said with pardonable pride.'

```

如此，有足夠豐富的Vocabulary，就能各種文本都能學習與產生。

#大語言模型

留言

留言分享你的想法！

王啟樺的沙龍

634會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

看更多

你可能也想看

Emma 的意識界。

輕鬆賺零用金的祕密 | 蝦皮分潤計畫賺零用金實測成果開箱＋近期敗家好物開箱 😁

透過蝦皮分潤計畫，輕鬆賺取零用金！本文分享5-6月實測心得，包含數據流程、實際收入、平臺優點及注意事項，並推薦高分潤商品，教你如何運用空閒時間創造被動收入。

#蝦皮#行動電源#測試

2025/09/07

Emma 的意識界。

輕鬆賺零用金的祕密 | 蝦皮分潤計畫賺零用金實測成果開箱＋近期敗家好物開箱 😁

#蝦皮#行動電源#測試

2025/09/07

好好宅在家

【單身實驗室．蝦皮分潤計畫】藏身蝦皮的植系青屬，為我的北向陽台增添家人。

單身的人有些會養寵物，而我養植物。畢竟寵物離世會傷心，植物沒養好再接再厲就好了~（笑）

#開箱#蝦皮分潤計畫#單身實驗室

2025/09/12

好好宅在家

【單身實驗室．蝦皮分潤計畫】藏身蝦皮的植系青屬，為我的北向陽台增添家人。

單身的人有些會養寵物，而我養植物。畢竟寵物離世會傷心，植物沒養好再接再厲就好了~（笑）

#開箱#蝦皮分潤計畫#單身實驗室

2025/09/12

翰墨飄香的沙龍

補貨小日常｜居家生活用品實測分享，還順便開啟蝦皮分潤計畫小驚喜！

不知你有沒有過這種經驗？衛生紙只剩最後一包、洗衣精倒不出來，或電池突然沒電。這次一次補貨，從電池、衛生紙到洗衣精，還順便分享使用心得。更棒的是，搭配蝦皮分潤計畫，愛用品不僅自己用得安心，分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E，輕鬆上手，隨時隨地賺取分潤！

#衛生紙#洗衣精#居家生活

2025/09/10

翰墨飄香的沙龍

補貨小日常｜居家生活用品實測分享，還順便開啟蝦皮分潤計畫小驚喜！

#衛生紙#洗衣精#居家生活

2025/09/10

阿Mo的murmur小天地🪄

開箱＋分潤分享｜社畜的療癒小樹洞 🧑‍🎨 iPad 殼 × 蝦皮分潤計畫

身為一個典型的社畜，上班時間被會議、進度、KPI 塞得滿滿，下班後只想要找一個能夠安靜喘口氣的小角落。對我來說，畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉，還是慢慢描繪喜歡的插畫人物，那個專注在筆觸和色彩的過程，就像在幫心靈按摩一樣，讓緊繃的神經慢慢鬆開。

#小確幸#iPad#樹洞

2025/09/10

阿Mo的murmur小天地🪄

開箱＋分潤分享｜社畜的療癒小樹洞 🧑‍🎨 iPad 殼 × 蝦皮分潤計畫

#小確幸#iPad#樹洞

2025/09/10

學習的羊的沙龍

Python學習：f-string的使用使語法更簡潔

在 Python 中，print( ) 函數用於將結果輸出到螢幕上。當你嘗試將不同資料型別（例如字串和數字）混合在一起輸出時，print( )函數無法直接處理這些不同型別的資料，因此你需要先將它們轉換為相同的資料型別。通常，這意味著需要將數字轉換為字串型別，以便與其他字串一同輸出。雖然我們也可以

2024/08/05

學習的羊的沙龍

Python學習：f-string的使用使語法更簡潔

2024/08/05

newman的沙龍

技術筆記-後台實戰001-玩轉系統架構，設計一個背景服務，低成本，可容錯

打開 jupyter notebook 寫一段 python 程式，可以完成五花八門的工作，這是玩程式最簡便的方式，其中可以獲得很多快樂，在現今這種資訊發達的時代，幾乎沒有門檻，只要願意，人人可享用。下一步，希望程式可以隨時待命聽我吩咐，不想每次都要開電腦，啟動開發環境，只為完成一個重複性高

#獨立開發#容錯架構#排程工作

2024/07/20

newman的沙龍

技術筆記-後台實戰001-玩轉系統架構，設計一個背景服務，低成本，可容錯

#獨立開發#容錯架構#排程工作

2024/07/20

Joec's Maker

[Python] 如何開始: 產出你的第一支 python 程式

什麼是Python python是電腦程式語言的一種，如同python官方網站上的介紹 "Python是一種程式語，可讓你更快速地工作並更有效的整合系統"。簡單地說，就是你可用python這個程式語言去告訴電腦你想要作什麼，讓電腦來幫你完成你要作的事情。

#python#程式#教學

2024/05/23

Joec's Maker

[Python] 如何開始: 產出你的第一支 python 程式

#python#程式#教學

2024/05/23

Michael楊

Python入門-Day10：模組

Python的模組和庫是可重用的程式碼塊，可透過import語句引入。特定部分可以透過from和import引入，並可使用as指定別名。第三方模組可透過pip工具安裝並在程式碼中使用。此外，也可以創建自定義模組並在其他Python文件中引用。

2024/05/18

2024/05/18

本文介紹了Python中的物件導向程式設計的重要概念，包括類別、繼承、多型、封裝、介面、抽象類別、靜態類別、列舉、委派、Lambda表達式、泛型和反射。每個概念都有對應的程式碼範例來說明其用法和功能。這些概念對於理解和使用Python進行物件導向程式設計至關重要。

2024/05/15

2024/05/15

在Python中，我們可以用def關鍵字定義函數，並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用，而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數，然後在另一個文件中呼叫它。

2024/05/14

Michael楊

Python入門-Day7：函數

2024/05/14

Michael楊

Python入門-Day1：語言介紹、觸及的領域、誰在使用

Python是一種易學且功能強大的程式語言，具有直譯、動態語法等特性，並擁有豐富的標準庫。它在各領域如Web開發、數據科學和人工智慧等得到廣泛應用，並被許多大公司如Google和Facebook等使用。Python還有強大的框架、豐富的交互機能、和龐大的社區。

#Python

2024/05/09

Michael楊

Python入門-Day1：語言介紹、觸及的領域、誰在使用

#Python

2024/05/09

媗日的小窩

Python中的函式操作們(上)

今天來介紹python的函式函式在python中是非常重要的一環，因為到了後期，程式會越來越複雜。而函式可以想成是容易管理的小程式，當我們需要使用時，只需呼叫即可。

2024/04/25

2024/04/25

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News