我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 Decoder Layer,其架構具有 Multi-Head Self-Attention 機制,允許每個 Token 學習理解所有周圍的 Token。
Masked Multi-Head Attention 隨機屏蔽一些標記,以迫使該系統學習上下文,例如句子為:「The cat sat on it because it was a nice rug」,則 Encoder Layer 的輸入變成:「The cat sat on it <masked sequence>」,這只是一個例子,被屏蔽的字不一定會在句尾。
為什麼 BERT 名字裡面有 Bidirectional 這個字呢?其實是因為過去做機器翻譯時,Encoder 在讀取資料的時候都是採取單一方向,不是左至右就是右至左,然而 Transformer Encoder 是採取一次讀取整個 Token Sequence,因此它被認為是雙向的,這個特性允許模型根據 Token 的周圍環境,即左側和右側,來學習其上下文。
BERT 模型的訓練分為兩種,分別為: