AI說書 - 從0開始 - 301 | Sentence Piece Tokenization 展示

2025/01/21 更新2025/01/21 發佈閱讀 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Sentence Piece Tokenizer 在 Unigram 語言模型 Tokenizer (見 AI說書 - 從0開始 - 300 | Unigram Language Model Tokenization 展示) 中加入了 Byte Pair Encoding (BPE) 方法，它不需要 Pre-Tokenizer，並且可以處理原始數據。

以下示範，首先載入必要依賴包：

import sentencepiece as spm 
import random

接著輸入範例文本並儲存：

basic_corpus = [ "Subword tokenizers break text sequences into subwords.", 
                 "This sentence is another part of the corpus.", 
                 "Tokenization is the process of breaking text down into smaller units.", 
                 "These smaller units can be words, subwords, or even individual characters.", 
                 "Transformer models often use subword tokenization." ]
                 
# Generate a larger corpus by repeating sentences from the basic corpus
corpus = [random.choice(basic_corpus) for _ in range(10000)]

with open('large_corpus.txt', 'w') as f:
	for sentence in corpus:
		f.write(sentence + '\n')

再進行 Tokenizer 設定並進行訓練：

spm.SentencePieceTrainer.train(input = 'large_corpus.txt', model_prefix = 'm', vocab_size = 88)

接著檢視結果：

sp = spm.SentencePieceProcessor() 
sp.load('m.model')
tokens = sp.encode_as_pieces("Subword tokenizers break text sequences into subwords.") 
print(tokens)

結果為：

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

留言分享你的想法！

Learn AI 不 BI

246會員

993內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

看更多

你可能也想看

勤愛自己的沙龍

宅不宅沒關係，愛自己就好--蝦皮雙12優惠好康看這裡

一位長期推廣閱讀寫作、經營多個平臺，也是《30Days愛自己的小練習》作者，分享首次親自體驗蝦皮購物的歷程。以「網購小白」的角度，詳細介紹了蝦皮平臺操作的便利性，分享了加入分潤的七大好處、賺錢的五大撇步。文章穿插了雙12活動、購物連結及分潤連結，極具參考價值。

#電子書#30天愛自己的小練習#投資自己的富足

2025/12/09

勤愛自己的沙龍

宅不宅沒關係，愛自己就好--蝦皮雙12優惠好康看這裡

#電子書#30天愛自己的小練習#投資自己的富足

2025/12/09

猴子看世界的沙龍

【廚房三寶】烤箱、淨水器必買清單公開！蝦皮雙12購物攻略，花錢買時間的祕訣！

(一)分享曾經在蝦皮買過的好物這是一個真實的故事，筆者大約每半年會去蝦皮網站購買一種叫做永樂健的酵素，這是日本製造原裝進口的酵素，有兩種以上的口味(橘子口味、優酪乳口味)，我都買橘子口味的，比較好吃，因為是台灣出貨，很快就會寄來。每次買30包，店家又加贈2包，等於擁有32包。

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/09

猴子看世界的沙龍

【廚房三寶】烤箱、淨水器必買清單公開！蝦皮雙12購物攻略，花錢買時間的祕訣！

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/09

柏的沙龍就是柏沙

蝦皮雙12買什麼？舒壓腳底按摩輪、數位遊牧筆電防震提袋、防災必備手搖式收音機，蝦皮開箱文帶你看！最後教大家開一間選物店！

雙12即將來襲！今年不只是要買東買西，還要變身購物專家，就由我來推薦大家購物清單，裡面還有開箱文給大家參考。先來一個讓人逛街腳底舒服的「舒壓腳底按摩輪」，數位遊牧一定要帶的「無印良品筆電防震提袋」，讓我想去咖啡廳寫文章帶了就走，再來是居安思危、防災必備的 MVP「3Coins 手搖式收音機」，它還有

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/04