Learn AI 不 BI

AI說書 - 從0開始 - 303 | WordPiece Tokenization 介紹與偵測

發佈於三分鐘學AI (2)

更新於 2025/01/23發佈於 2025/01/23閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

WordPiece 和 Byte Pair Encoding (BPE) 一樣，以單個字符的詞彙表開始，這樣可以確保任何詞都能被 Tokenization，接著，訓練過程會構建 Subword，並使用優化過程來最小化 Subword 的數量。

當訓練過程完成後，Tokenizer 會將序列分解為其詞彙表中最長的單詞序列，那些不在原始單詞開頭的 Subword 會帶有前綴 "##"，例如，“undo” 會被表示為 ["un", "##do"]，請記住這一點，因為它有助於我們識別 WordPiece Tokenizer。

Tokenizer 對於訓練 Transformer 模型會有強烈的影響，選擇正確的 Tokenizer 往往會從一開始就決定模型的結果。

以下撰寫程式來分辨，Tokenizer 究竟是 WordPiece 還是 BPE：

import requests

!curl -L https://raw.githubusercontent.com/Denis2054/Transformers-for-NLP-and-Computer-Vision-3rd-Edition/main/Chapter10/merges.txt --output "merges.txt"
!curl -L https://raw.githubusercontent.com/Denis2054/Transformers-for-NLP-and-Computer-Vision-3rd-Edition/main/Chapter10/vocab.txt --output "vocab.json"

from transformers import RobertaTokenizer
tokenizer = RobertaTokenizer.from_pretrained('roberta-base')
vocab = tokenizer.get_vocab()
is_wordpiece = any(token.startswith('##') for token in vocab)

if is_wordpiece: 
	print("Tokenizer type: WordPiece") 
else: 
	print("Tokenizer type: BPE")

結果為：

raw-image

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

Learn AI 不 BI

190會員

504內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 302 | Byte Pair Encoding 產生流程之介紹

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Byte Pair Encoding (BPE) 以單個字符的詞彙表開始，然後合併最常見的相鄰字符對，超參數決定了該過程重複的次數。最終結果是一組合併後的字符，

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 301 | Sentence Piece Tokenization 展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Sentence Piece Tokenizer 在 Unigram 語言模型 Tokenizer (見 AI說書 - 從0開始 - 300 | Unigram Lan

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 300 | Unigram Language Model Tokenization 訓練展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Unigram 語言模型分詞由 Google 開發，它使用 Subword 單元進行訓練，並會丟棄不常見的單元，Unigram 語言模型 Tokenization 是隨

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 299 | Subword Tokenizer 引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 模型是大規模的大型語言模型 (LLMs)，模型的規模和它們執行的任務數量需要高效的 Tokenizer，Subword Tokenizer 是

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 302 | Byte Pair Encoding 產生流程之介紹

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Byte Pair Encoding (BPE) 以單個字符的詞彙表開始，然後合併最常見的相鄰字符對，超參數決定了該過程重複的次數。最終結果是一組合併後的字符，

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 301 | Sentence Piece Tokenization 展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Sentence Piece Tokenizer 在 Unigram 語言模型 Tokenizer (見 AI說書 - 從0開始 - 300 | Unigram Lan

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 300 | Unigram Language Model Tokenization 訓練展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Unigram 語言模型分詞由 Google 開發，它使用 Subword 單元進行訓練，並會丟棄不常見的單元，Unigram 語言模型 Tokenization 是隨

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 299 | Subword Tokenizer 引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 模型是大規模的大型語言模型 (LLMs)，模型的規模和它們執行的任務數量需要高效的 Tokenizer，Subword Tokenizer 是

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 298 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝、AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示、AI說書 -

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 297 | 各 Tokenizer 之展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝及 AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示，我們繼續

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

國泰世華CUBE App 美的生活體驗，給予你最好的情緒。

現代社會跟以前不同了，人人都有一支手機，只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行，然而如今科技快速發展之下，金融App無聲無息地進到你生活中。但同樣的，每一家銀行都有自己的App時，我們又該如何選擇呢？(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB

#國泰世華 #CUBE卡 #金融

Learn AI 不 BI

AI說書 - 從0開始 - 109 | BLEU 評分機制前言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 106 | 低頻率詞彙篩除方法

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們從 AI說書 - 從0開始 - 103 至 AI說書 - 從0開始 - 105 的努力，已經完成資料集前處理，現在需要定義一個函數來加載這些清理過的數據集，並在預處

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 103

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集，以下著手資料集下載程式： import urllib.request # Define the

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 50

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論： Embedding 訓練方式：AI說書 - 從0開始 - 43 Embed

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 49

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。再度回到 Transformer 架構中的 Encoder 部分，如下圖所示：我現在手上有的素材如下： Embedding 訓練方式：AI說書 - 從0開始

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 14

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了，現在我們把參數放大到真實大型語言模型的規模，看看運算時間的等級。

#AI #ai #PromptEngineering

國泰世華CUBE App 美的生活體驗，給予你最好的情緒。

現代社會跟以前不同了，人人都有一支手機，只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行，然而如今科技快速發展之下，金融App無聲無息地進到你生活中。但同樣的，每一家銀行都有自己的App時，我們又該如何選擇呢？(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB

#國泰世華 #CUBE卡 #金融

Learn AI 不 BI

AI說書 - 從0開始 - 109 | BLEU 評分機制前言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 106 | 低頻率詞彙篩除方法

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們從 AI說書 - 從0開始 - 103 至 AI說書 - 從0開始 - 105 的努力，已經完成資料集前處理，現在需要定義一個函數來加載這些清理過的數據集，並在預處

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 103

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集，以下著手資料集下載程式： import urllib.request # Define the

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

Learn AI 不 BI

AI說書 - 從0開始 - 50

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論： Embedding 訓練方式：AI說書 - 從0開始 - 43 Embed

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 49

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。再度回到 Transformer 架構中的 Encoder 部分，如下圖所示：我現在手上有的素材如下： Embedding 訓練方式：AI說書 - 從0開始

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 43

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在AI說書 - 從0開始 - 42中，見識了 Tokenizer 做的事情了，以下來羅列幾個要點：它將原始文字轉成小寫有可能將原始文字再進行切割通常 T

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 40

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作，抑或是 'Token-to-Token' 操作，白話來講就是：「對於句子中

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 14

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了，現在我們把參數放大到真實大型語言模型的規模，看看運算時間的等級。

#AI #ai #PromptEngineering