我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運算資源、資料等等,於是想要做 Fine-Tuning。
這個章節會教導如何從 Hugging Face 抓 BERT 模型下來執行 Fine-Tuning,一旦這個學會,將能夠抓取其他在 Hugging Face 上的模型來執行 Fine-Tuning,例如 GPT、T5、RoBERTa 等模型。
BERT 模型全名為 Bidirectional Encoder Representations from Transformers,其只包含 Encoder Block 而不包含 Decoder Block。
本章節將包含: