AI說書 - 從0開始 - 53

LearnAI

發佈於三分鐘學AI

更新於 2024/06/26發佈於 2024/06/26閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention：

Head 1 說明：

Single-Head Attention 把向量 aⁱ乘上矩陣 W^q變成向量 qⁱ
舉 2-Head 例子來說明
Mulgti-Head Attention 再把向量 qⁱ乘上矩陣 W^q,1變成向量 q^i,1
延續 Single-Head Attention 作法得到 b^i,1

Head 2 說明：

Single-Head Attention 把向量 aⁱ乘上矩陣 W^q變成向量 qⁱ
舉 2-Head 例子來說明
Mulgti-Head Attention 再把向量 qⁱ乘上矩陣 W^q,2變成向量 q^i,2
延續 Single-Head Attention 作法得到 b^i,2

合併：

Mulgti-Head Attention 最後得到的向量 b^i,1與向量 b^i,2，合併後乘上矩陣 W 變成向量 bⁱ
至此的格式就變成跟 Single-Head Attention 一致了

然後有一點要注意，我們為了方便說明，在向量乘法中，我們忽略了一個項目，現實情況的 Transformer 的向量乘法會除上「根號矩陣維度」，而矩陣維度有兩個，其一是 Input Embedding 的維度，而我們選另一個維度，以避免向量越來越長，引起乘法結果越來越大的議題。

講完數學，現在我們來打一點程式說明一下 Multi-Head Attention 的運作機制，為了方便說明，我們把 Input Embedding 的維度由 512 改成 4，此外我指定一個句子只有 3 個字，這樣的小規模，讓大家比較不會害怕：

import numpy as np
from scipy.special import softmax

x = np.array([[1.0, 0.0, 1.0, 0.0],    # Word 1
              [0.0, 2.0, 0.0, 2.0],    # Word 2
              [1.0, 1,0, 1,0, 1,0]])   # Word 3

Learn AI 不 BI三分鐘學AIAI從0開始-第二章

留言

留言分享你的想法！

Learn AI 不 BI

235會員

757內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/07/05

AI說書 - 從0開始 - 71

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ，我們完成書籍：Transformers for Natural Language Proc

2024/07/05

AI說書 - 從0開始 - 71

2024/07/04

AI說書 - 從0開始 - 70

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 的重要性已經被公認了，因此在 Hugging Face 中亦有被實作，呼叫方式如下： !pip -q install transformers

2024/07/04

AI說書 - 從0開始 - 70

2024/07/02

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

2024/07/02

AI說書 - 從0開始 - 69

看更多

你可能也想看