我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Transformer 模型是大規模的大型語言模型 (LLMs),模型的規模和它們執行的任務數量需要高效的 Tokenizer,Subword Tokenizer 是 LLMs 的最佳選擇,原因包括以下幾點:
Byte Pair Encoding (BPE) 和 WordPiece 是 Transformer 模型中常用的 Subword Tokenizer,理解這兩種 Subword Tokenizer 的原理將幫助你理解任何 Subword Tokenizer 的運作方式,雖然我們主要關注 BPE 和 WordPiece,但它們並不是唯一的 Subword Tokenizer,為了之後實作,我們先安裝以下工具:
!pip install transformers -qq
!pip install sentencepiece -qq