我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
在 AI說書 - 從0開始 - 127 中提及:
Transformer 的關鍵參數為:
- 原始 Transformer 模型中,左圖的 N = 6
- 原始 Transformer 模型中,輸入 Multi-Head Attention 的維度是 [Token數, 512],記為 dmodel = 512
- 原始 Transformer 模型中,Multi-Head Attention 有八個 Head,記為 A = 8
- 原始 Transformer 模型中,Attention Head 的維度是 64,記為 dk = 64
現在我們來闡述 Bidirectional Encoder Representations from Transformers (BERT) 模型的關鍵參數:
- BERTBase 模型的 N = 12
- BERTBase 模型的 dmodel = 768
- BERTBase 模型的 A = 12
- BERTBase 模型的 dk = 64
還有一種比較大模型的 BERT,其關鍵參數為:
- BERTLarge 模型的 N = 24
- BERTLarge 模型的 dmodel = 1024
- BERTLarge 模型的 A = 16
- BERTLarge 模型的 dk = 64
Transformer、BERTBase 與 BERTLarge 的模型比較如下圖所示: