AI說書 - 從0開始 - 55

更新於 2024/06/27發佈於 2024/06/27閱讀時間約 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

目前我們已經完成：

Single-Head Attention 數學說明：AI說書 - 從0開始 - 52
Multi-Head Attention 數學說明：AI說書 - 從0開始 - 53
Attention 機制程式說明 - 輸入端：AI說書 - 從0開始 - 53
Attention 機制程式說明 - Query 端：AI說書 - 從0開始 - 54
Attention 機制程式說明 - Key 端：AI說書 - 從0開始 - 54

現在我們來撰寫 Query、Key、Value 權重矩陣的程式，在原始 Google 於 2017 年釋出的 Attention 論文中，Query、Key、Value 這三個矩陣的維度均為 512 x 64 ，前者對應 Embedding + Positional Encoding 後的維度，現在為了方便説明，我們把它們都調整成 4 x 3。

針對 Value 權重矩陣的程式配置如下：

W_Value = np.array([[0, 2, 0],
                    [0, 3, 0],
                    [1, 0, 3],
                    [1, 1, 0]])

整理圖示化結果如下，給定一段句子，假設有三個字，每個字用 4 維度的向量表示，然後配置 Query 、 Key 、 Value 三個矩陣，其維度均為 4 x 3 ：

圖片出自：Transformers for Natural Language Processing and Computer Vision - Third Edition, 2024

Learn AI 不 BI三分鐘學AIAI從0開始-第二章

留言

留言分享你的想法！

Learn AI 不 BI

234會員

740內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/07/05

AI說書 - 從0開始 - 71

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ，我們完成書籍：Transformers for Natural Language Proc

2024/07/05

AI說書 - 從0開始 - 71

2024/07/04

AI說書 - 從0開始 - 70

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 的重要性已經被公認了，因此在 Hugging Face 中亦有被實作，呼叫方式如下： !pip -q install transformers

2024/07/04

AI說書 - 從0開始 - 70

2024/07/02

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

2024/07/02

AI說書 - 從0開始 - 69

看更多

你可能也想看