我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看:
幾點注意如下:
- BERT 模型使用 Masked Language Model (MLM),其中一些 Input Token 被隱藏 (屏蔽),注意力層必須學會理解上下文,該模型將預測 Hidden Token
- 原始 Transformer 模型中,左圖的 N = 6
- 原始 Transformer 模型中,輸入 Multi-Head Attention 的維度是 [Token數, 512],記為 dmodel = 512
- 原始 Transformer 模型中,Multi-Head Attention 有八個 Head,記為 A = 8
- 原始 Transformer 模型中,Attention Head 的維度是 64,記為 dk = 64