我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- RoBERTa 與 DistilBERT 模型
- Byte-Level Byte-Pair 編碼
- 訓練 Tokenizer
- 定義模型的 Configuration
- 初始化模型
- 探索模型的參數
- 建立資料集
- 定義資料 Collator
- 初始化 Trainer
- Pretrain 模型
- 建立語言模型的 Pipeline
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。