我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝 安裝的各種 Tokenizer,我們來展示其用處:
Sentence Tokenization
其將文字分割成單獨的句子,它將段落或文件分解為句子單元,展示如下:
text = "This is a sentence. This is another one."
sentences = sent_tokenize(text)
print("Sentence Tokenization:")
print(sentences)
結果為:
Word Tokenization
其將序列 (即句子和文字) 分解為單字,它檢測標點符號和空格,例如引號和換行符號,展示如下:
sentence = "This sentence contains several words."
words = word_tokenize(sentence)
print("Word Tokenization:")
print(words)
結果為:
Regular Expression Tokenization
其使用正規表示式,因此可以自訂函數來定義規則和模式,展示如下:
tokenizer = RegexpTokenizer(r'\w+')
text = "Let's see how to tokenize a sentence."
tokens = tokenizer.tokenize(text)
print("Regular Expression Tokenization:")
print(tokens)
結果為:
r'\w+' 補充說明如下: