我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
這個章節會教導如何從 Hugging Face 抓 BERT 模型下來執行 Fine-Tuning,一旦這個學會,將能夠抓取其他在 Hugging Face 上的模型來執行 Fine-Tuning,例如 GPT、T5、RoBERTa 等模型。
BERT 模型全名為 Bidirectional Encoder Representations from Transformers,其只包含 Encoder Block 而不包含 Decoder Block。
本章節將包含:
- BERT 模型架構
- Encoder 模組、Bidirectional Attention 機制
- 創造訓練資料、標籤、Token
- 資料分割為 Training Set 與 Validation Set
- 設定 Hugging Face 原始 BERT 模型
- 設定訓練的 Hyperparameter
- 執行訓練
- 建立 Python 聊天介面