我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Treebank Tokenization
其基於賓夕法尼亞大學的語料庫,其中包含註釋、詞性、句法結構和語義角色,將序列分解為單詞,同時考慮縮寫等高級問題,展示如下:
tokenizer = TreebankWordTokenizer()
text = "There aren't that many tokenizers."
tokens = tokenizer.tokenize(text)
print("Treebank Tokenization:")
print(tokens)
結果為:

White Space Tokenization
其將非空白字元處理為標記,使用非空格作為標記來分隔單字,展示如下:
from nltk.tokenize import WhitespaceTokenizer
tokenizer = WhitespaceTokenizer()
text = "Tokenize this sequence of words using white space. There aren't many words."
tokens = tokenizer.tokenize(text)
print("White Space Tokenization:")
print(tokens)
結果為:
