2024-08-12|閱讀時間 ‧ 約 24 分鐘

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


AI說書 - 從0開始 - 127 中提及:

Transformer 的關鍵參數為:

  • 原始 Transformer 模型中,左圖的 N = 6
  • 原始 Transformer 模型中,輸入 Multi-Head Attention 的維度是 [Token數, 512],記為 dmodel = 512
  • 原始 Transformer 模型中,Multi-Head Attention 有八個 Head,記為 A = 8
  • 原始 Transformer 模型中,Attention Head 的維度是 64,記為 dk = 64






現在我們來闡述 Bidirectional Encoder Representations from Transformers (BERT) 模型的關鍵參數:

  • BERTBase 模型的 N = 12
  • BERTBase 模型的 dmodel = 768
  • BERTBase 模型的 A = 12
  • BERTBase 模型的 dk = 64


還有一種比較大模型的 BERT,其關鍵參數為:

  • BERTLarge 模型的 N = 24
  • BERTLarge 模型的 dmodel = 1024
  • BERTLarge 模型的 A = 16
  • BERTLarge 模型的 dk = 64


Transformer、BERTBase 與 BERTLarge 的模型比較如下圖所示:


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.