2024-08-15|閱讀時間 ‧ 約 25 分鐘

AI說書 - 從0開始 - 132 | BERT 的訓練

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


今天來談 Bidirectional Encoder Representations from Transformers (BERT) 的 Pretrain 與 Fine-Tune,按照順序說明如下:

  • 引入 BERT 模型,其與 Transformer 模型的參數比較見 AI說書 - 從0開始 - 128
  • 說明 BERT 的訓練分兩種,分別為 MLM 與 NSP,詳見 AI說書 - 從0開始 - 129
  • MLM 說明見 AI說書 - 從0開始 - 130
  • NSP 說明見 AI說書 - 從0開始 - 131
  • BERT introduces scenarios of unsupervised embedding and pretraining models with unlabeled text. Unsupervised methods force the model to think harder during the multi-head attention learning process. This makes BERT learn how languages are built and apply this knowledge to downstream tasks without having to pretrain each time.


接著將訓練好的模型匯入下一階段使用


  • 根據不同的下游任務,準備執行 Fine-Tuning 任務
  • 繼承上一步驟的 Pretraining 模型當作初始









再來執行 Fine-Tuning,這裡又細分成很多種任務


針對不同的下游任務,以下舉一些例子:

上述是 Classification 類的任務,以下有 Token-Level 的任務:


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.