2024-08-11|閱讀時間 ‧ 約 23 分鐘

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


回顧 AI說書 - 從0開始 - 39AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看:

幾點注意如下:

  • BERT 模型使用 Masked Language Model (MLM),其中一些 Input Token 被隱藏 (屏蔽),注意力層必須學會理解上下文,該模型將預測 Hidden Token
  • 原始 Transformer 模型中,左圖的 N = 6
  • 原始 Transformer 模型中,輸入 Multi-Head Attention 的維度是 [Token數, 512],記為 dmodel = 512
  • 原始 Transformer 模型中,Multi-Head Attention 有八個 Head,記為 A = 8
  • 原始 Transformer 模型中,Attention Head 的維度是 64,記為 dk = 64
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.