我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測 講 WordPiece Tokenizer,今天來談論 Token ID 映射事宜:
首先匯入需要的依賴包,並載入 Tokenizer:
from tabulate import tabulate
import ipywidgets as widgets
from IPython.display import display
from transformers import BertTokenizer
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
檢索詞彙表:
vocab = tokenizer.get_vocab()
vocab_list = list(vocab.items())