我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
今天來談 Bidirectional Encoder Representations from Transformers (BERT) 的 Pretrain 與 Fine-Tune,按照順序說明如下:
- 引入 BERT 模型,其與 Transformer 模型的參數比較見 AI說書 - 從0開始 - 128
- 說明 BERT 的訓練分兩種,分別為 MLM 與 NSP,詳見 AI說書 - 從0開始 - 129
- MLM 說明見 AI說書 - 從0開始 - 130
- NSP 說明見 AI說書 - 從0開始 - 131
- BERT introduces scenarios of unsupervised embedding and pretraining models with unlabeled text. Unsupervised methods force the model to think harder during the multi-head attention learning process. This makes BERT learn how languages are built and apply this knowledge to downstream tasks without having to pretrain each time.
接著將訓練好的模型匯入下一階段使用
- 根據不同的下游任務,準備執行 Fine-Tuning 任務
- 繼承上一步驟的 Pretraining 模型當作初始
再來執行 Fine-Tuning,這裡又細分成很多種任務
針對不同的下游任務,以下舉一些例子:
上述是 Classification 類的任務,以下有 Token-Level 的任務: