我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝 及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示,我們繼續來展示各 Tokenizer 的用處:
Treebank Tokenization
其基於賓夕法尼亞大學的語料庫,其中包含註釋、詞性、句法結構和語義角色,將序列分解為單詞,同時考慮縮寫等高級問題,展示如下:
tokenizer = TreebankWordTokenizer()
text = "There aren't that many tokenizers."
tokens = tokenizer.tokenize(text)
print("Treebank Tokenization:")
print(tokens)
結果為:
White Space Tokenization
其將非空白字元處理為標記,使用非空格作為標記來分隔單字,展示如下:
from nltk.tokenize import WhitespaceTokenizer
tokenizer = WhitespaceTokenizer()
text = "Tokenize this sequence of words using white space. There aren't many words."
tokens = tokenizer.tokenize(text)
print("White Space Tokenization:")
print(tokens)
結果為: