AI說書 - 從0開始 - 301 | Sentence Piece Tokenization 展示

2025/01/21 更新2025/01/21 發佈閱讀 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Sentence Piece Tokenizer 在 Unigram 語言模型 Tokenizer (見 AI說書 - 從0開始 - 300 | Unigram Language Model Tokenization 展示) 中加入了 Byte Pair Encoding (BPE) 方法，它不需要 Pre-Tokenizer，並且可以處理原始數據。

以下示範，首先載入必要依賴包：

import sentencepiece as spm 
import random

接著輸入範例文本並儲存：

basic_corpus = [ "Subword tokenizers break text sequences into subwords.", 
                 "This sentence is another part of the corpus.", 
                 "Tokenization is the process of breaking text down into smaller units.", 
                 "These smaller units can be words, subwords, or even individual characters.", 
                 "Transformer models often use subword tokenization." ]
                 
# Generate a larger corpus by repeating sentences from the basic corpus
corpus = [random.choice(basic_corpus) for _ in range(10000)]

with open('large_corpus.txt', 'w') as f:
	for sentence in corpus:
		f.write(sentence + '\n')

再進行 Tokenizer 設定並進行訓練：

spm.SentencePieceTrainer.train(input = 'large_corpus.txt', model_prefix = 'm', vocab_size = 88)

接著檢視結果：

sp = spm.SentencePieceProcessor() 
sp.load('m.model')
tokens = sp.encode_as_pieces("Subword tokenizers break text sequences into subwords.") 
print(tokens)

結果為：

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

留言分享你的想法！

Learn AI 不 BI

240會員

880內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15