我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
目前我們已經完成:
- Single-Head Attention 數學說明:AI說書 - 從0開始 - 52
- Multi-Head Attention 數學說明:AI說書 - 從0開始 - 53
- Attention 機制程式說明 - 輸入端:AI說書 - 從0開始 - 53
- Attention 機制程式說明 - Query 端:AI說書 - 從0開始 - 54
- Attention 機制程式說明 - Key 端:AI說書 - 從0開始 - 54
- Attention 機制程式說明 - Value 端:AI說書 - 從0開始 - 55
- Attention 機制程式說明 - Query 、 Key 、 Value 結果:AI說書 - 從0開始 - 56
- Attention 機制程式說明 - Attention Score 計算:AI說書 - 從0開始 - 57
- Attention 機制程式說明 - Attention Score 正規化計算:AI說書 - 從0開始 - 58
- Attention 機制程式說明 - 輸出結果計算:AI說書 - 從0開始 - 59
- Attention 機制程式說明 - 輸出結果呈現:AI說書 - 從0開始 - 60
- Attention 機制程式說明 - 總整理:AI說書 - 從0開始 - 61
至此我們完成 Single-Head Attention 的理論與實作操作,在此提點我們實作與真實模型的差異:
- 在 AI說書 - 從0開始 - 53 中,我們為了解說方便,把輸入句子的長度限縮為 3 個字,而在真實情況下,一個句子的文字數目將遠超過此數目
- 在 AI說書 - 從0開始 - 53 中,我們為了解說方便,把每個字用 4 維度的向量來表示,而在原始 Google 釋出的 Transformer 論文中,此維度為 512
- 在 AI說書 - 從0開始 - 54 中,我們為了解說方便,把 Query 、 Key 、 Value 轉換矩陣設定為維度 4 x 3 ,而在原始 Google 釋出的 Transformer 論文中,此維度為 512 x 64
也就是說,如果我參照原始 Google 釋出的 Transformer 論文的參數,在三個字的句子情況下,Single-Head Attention的輸出維度將是 1 x 3 x 64