我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題:
- Transformer 架構
- 自注意力機制
- 編碼與解碼
- Embedding
- Positional Embedding
- 多頭自注意力
- Masked Multi-Head Attention
- 殘差連接
- 正規化
- 前向傳播神經網路
- 輸出機率轉換
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題:













