AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

更新於 2025/01/15發佈於 2025/01/15閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處：

Sentence Tokenization

其將文字分割成單獨的句子，它將段落或文件分解為句子單元，展示如下：

text = "This is a sentence. This is another one."
sentences = sent_tokenize(text)
print("Sentence Tokenization:") 
print(sentences)

結果為：

Word Tokenization

其將序列 (即句子和文字) 分解為單字，它檢測標點符號和空格，例如引號和換行符號，展示如下：

sentence = "This sentence contains several words."
words = word_tokenize(sentence)
print("Word Tokenization:") 
print(words)

結果為：

Regular Expression Tokenization

其使用正規表示式，因此可以自訂函數來定義規則和模式，展示如下：

tokenizer = RegexpTokenizer(r'\w+')
text = "Let's see how to tokenize a sentence."
tokens = tokenizer.tokenize(text)
print("Regular Expression Tokenization:") 
print(tokens)

結果為：

r'\w+' 補充說明如下：

\w 是正規表達式中的一個預定義字符類，它匹配單詞字符，而單詞字符包含大寫英文 A 至 Z、小寫英文 a 至 z、數字 0 至 9 以及符號「 _ 」
+ 是量詞，表示「一個或多個」前面的元素，也就是說 + 表示匹配至少一個單詞字符，匹配的字符數不限
r 是 Python 的「原始字符串」語法，它告訴 Python 不要對反斜線 \ 進行轉譯處理，而是將其直接傳遞给正規表達式引擎

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

留言分享你的想法！

Learn AI 不 BI

225會員

646內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18