2024-08-12|閱讀時間 ‧ 約 23 分鐘

AI說書 - 從0開始 - 129 | BERT 模型兩種訓練方式引言

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 Decoder Layer,其架構具有 Multi-Head Self-Attention 機制,允許每個 Token 學習理解所有周圍的 Token。


Masked Multi-Head Attention 隨機屏蔽一些標記,以迫使該系統學習上下文,例如句子為:「The cat sat on it because it was a nice rug」,則 Encoder Layer 的輸入變成:「The cat sat on it <masked sequence>」,這只是一個例子,被屏蔽的字不一定會在句尾。


為什麼 BERT 名字裡面有 Bidirectional 這個字呢?其實是因為過去做機器翻譯時,Encoder 在讀取資料的時候都是採取單一方向,不是左至右就是右至左,然而 Transformer Encoder 是採取一次讀取整個 Token Sequence,因此它被認為是雙向的,這個特性允許模型根據 Token 的周圍環境,即左側和右側,來學習其上下文。


BERT 模型的訓練分為兩種,分別為:

  • Masked Language Modeling (MLM)
  • Next Sentence Prediction (NSP)
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.