Learn AI 不 BI

AI說書 - 從0開始 - 299 | Subword Tokenizer 引言

發佈於三分鐘學AI (2)

更新於 2025/01/18發佈於 2025/01/18閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Transformer 模型是大規模的大型語言模型 (LLMs)，模型的規模和它們執行的任務數量需要高效的 Tokenizer，Subword Tokenizer 是 LLMs 的最佳選擇，原因包括以下幾點：

詞彙外 (Out-of-Vocabulary, OOV) 詞語：Subword Tokenizer 可以處理在訓練階段未出現的詞語 OOV，Tokenizer 會將 OOV 詞語拆解成 Transformer 模型可以處理的小單位
詞彙優化：Subword Tokenizer 將序列分解為比句子和單詞 Tokenizer 更小的單位，從而優化詞彙表的大小
形態靈活性：Subword Tokenizer 將詞語分解為更小的單位，這些單位可以與其他小單位進行泛化，從而加深模型理解語言的能力
抗噪能力：即使單詞拼寫錯誤或包含錯別字，Subword Tokenizer 仍然可以捕捉並處理其含義
多語言處理：Word-Level Tokenizer 與特定語言相關，而 Subword Tokenizer 則不受語言限制

Byte Pair Encoding (BPE) 和 WordPiece 是 Transformer 模型中常用的 Subword Tokenizer，理解這兩種 Subword Tokenizer 的原理將幫助你理解任何 Subword Tokenizer 的運作方式，雖然我們主要關注 BPE 和 WordPiece，但它們並不是唯一的 Subword Tokenizer，為了之後實作，我們先安裝以下工具：

!pip install transformers -qq
!pip install sentencepiece -qq

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

Learn AI 不 BI

190會員

502內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處： Sentence Toke

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 模型通常使用 Byte-Pair Encoding (BPE) 和 WordPiece Tokenization，接著，我們將了解為什麼選擇 S

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 294 | Tokenizer 重要性範例之展示 6

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。替換生僻字詞本身就是一個項目，這項工作是為特定任務和項目保留的，例如，假設公司預算可以支付建立航空知識庫的成本，在這種情況下，值得花時間查詢 Tokenized Dir

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 293 | Tokenizer 重要性範例之展示 4、5

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著展示「pie」及「logic」兩詞之間的相似度計算結果： word1 = "pie" word2 = "logic" print("Similarity", s

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處： Sentence Toke

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 模型通常使用 Byte-Pair Encoding (BPE) 和 WordPiece Tokenization，接著，我們將了解為什麼選擇 S

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 294 | Tokenizer 重要性範例之展示 6

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。替換生僻字詞本身就是一個項目，這項工作是為特定任務和項目保留的，例如，假設公司預算可以支付建立航空知識庫的成本，在這種情況下，值得花時間查詢 Tokenized Dir

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 293 | Tokenizer 重要性範例之展示 4、5

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著展示「pie」及「logic」兩詞之間的相似度計算結果： word1 = "pie" word2 = "logic" print("Similarity", s

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

Learn AI 不 BI

AI說書 - 從0開始 - 99

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 擁有先進的翻譯能力，能夠捕捉多種語言中單字序列的意思，在第四章中，我們將介紹一些關鍵的翻譯概念，並探討它們在 Google Trax、Googl

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 14

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了，現在我們把參數放大到真實大型語言模型的規模，看看運算時間的等級。

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 5

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」，我們稱其為Attention Layer，再搭配我們在機器學習

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 3

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 2，ChatGPT的根基是一種名為Transformer的Foundation Model，我們從Transformer的時間複雜度開始

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 1

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 0，我們從Transformer開始談起： ChatGPT的火紅使得Transformer架構也跟著成為主流，相關應用從Googl

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 99

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 擁有先進的翻譯能力，能夠捕捉多種語言中單字序列的意思，在第四章中，我們將介紹一些關鍵的翻譯概念，並探討它們在 Google Trax、Googl

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 14

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了，現在我們把參數放大到真實大型語言模型的規模，看看運算時間的等級。

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 5

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」，我們稱其為Attention Layer，再搭配我們在機器學習

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 3

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 2，ChatGPT的根基是一種名為Transformer的Foundation Model，我們從Transformer的時間複雜度開始

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 1

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 0，我們從Transformer開始談起： ChatGPT的火紅使得Transformer架構也跟著成為主流，相關應用從Googl

#AI #ai #PromptEngineering