我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- BERT (Bidirectional Encoder Representations from Transformers) 模型是 Google 2018 年提出的模型,而 RoBERTa (Robustly Optimized BERT Pretraining Approach) 模型是 BERT 的進階版,由 Meta 於 2019 年提出
- RoBERTa 不使用 WordPiece Tokenization,而是使用 Byte-Pair Encoding (BPE)
- 本章節要介紹的模型是 KantaiBERT,是一種 BERT 模型的變形,是 RoBERTa 的縮小版,其使用 Masked Language Modeling (MLM) 做訓練,它的概念就是克漏字填空,詳如 AI說書 - 從0開始 - 130 所述
- 我們使用的 KantaiBERT 模型有 83504416 個參數,包含 6 Layers 與 12 Heads (蒸餾版 BERT, DistilBERT),與當今大型語言模型相比,尺寸偏小,但好處是訓練過程可以加速看到成果,此外如果模型是要放在智慧型手機中,那麼蒸餾版就是一種考慮選項