AI說書 - 從0開始 - 302 | Byte Pair Encoding 產生流程之介紹

發佈於三分鐘學AI (2)

2025/01/22 更新2025/01/22 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Byte Pair Encoding (BPE) 以單個字符的詞彙表開始，然後合併最常見的相鄰字符對，超參數決定了該過程重複的次數。

最終結果是一組合併後的字符，這些字符可以是單個 Character、Subwords 或完整的 Word，結果會被存儲在一個合併文件中，如 merge.txt，同時還會生成第二個文件，如 vocab.json，其中包含 Subword 的字典以及它們的唯一整數 ID。

Sequence 在 Tokenization 過程中被分解為 Subword，這些 Subword 可以在合併字典中找到，這個過程是迭代進行的，Tokenizer 會嘗試找到更大的 Subword，並重複 n 次操作，當達到最佳結果時，迭代合併的 Subword 會被 Tokenizer 分配一個 ID，這些子詞的 ID 信息會被記錄在 vocab.json 文件中。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

留言分享你的想法！

Learn AI 不 BI

242會員

942內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 334 | Embedding Based Search Embedded 相似度排序

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前有的素材： AI說書 - 從0開始 - 327 | Embedding Based Search 問答系統前置作業 AI說書 - 從0開始 - 328 |

#AI#ai#PromptEngineering

2025/02/26

Learn AI 不 BI

AI說書 - 從0開始 - 334 | Embedding Based Search Embedded 相似度排序

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前有的素材： AI說書 - 從0開始 - 327 | Embedding Based Search 問答系統前置作業 AI說書 - 從0開始 - 328 |

#AI#ai#PromptEngineering

2025/02/26

Learn AI 不 BI

AI說書 - 從0開始 - 333 | Embedding Based Search Embedded 相似度排序

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前有的素材： AI說書 - 從0開始 - 327 | Embedding Based Search 問答系統前置作業 AI說書 - 從0開始 - 328 |

#AI#ai#PromptEngineering

2025/02/24

Learn AI 不 BI

AI說書 - 從0開始 - 333 | Embedding Based Search Embedded 相似度排序

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前有的素材： AI說書 - 從0開始 - 327 | Embedding Based Search 問答系統前置作業 AI說書 - 從0開始 - 328 |

#AI#ai#PromptEngineering

2025/02/24

Learn AI 不 BI

AI說書 - 從0開始 - 322 | Embedding 後詞彙的 Cosine 相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 322 | Embedding 後詞彙的 Cosine 相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 321 | Embedding 後詞彙與 ID 映射

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/10

Learn AI 不 BI

AI說書 - 從0開始 - 321 | Embedding 後詞彙與 ID 映射

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/10

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 320 | Embedding 後詞彙相似度計算

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/09

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 319 | 檢視 Embedding 是否包含某詞彙

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/08

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 318 | Embedding 模型描述

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/07

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

Learn AI 不 BI

AI說書 - 從0開始 - 316 | Tokenization 後基本資訊窺探與 Embedding 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：載入文本並執行 Tokenization：AI說書 - 從0開始 - 314 | 載入文本並執行 Tokenization 文本處理以降低

#AI#ai#PromptEngineering

2025/02/04

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News