AI說書 - 從0開始 - 67

發佈於三分鐘學AI

2024/06/30 更新2024/06/30 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder 的部分不是很底層解析，因此今天內容引自台大李宏毅教授上課內容。

首先解釋何謂 Decoder 是基於 Auto-Regressive Model

raw-image

假設輸入一段「機器學習」的聲音，希望做語音辨識，而且目前已經執行完 Encoder 部分，關於 Encoder 部分參見 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 65
Decoder 首先輸入 Begin Token ，同時匯入 Encoder 的精華資訊，預期第一個字經過 Softmax 操作後會得到「機」，接著將輸出的「機」，再匯入 Decoder ，預期第二個字經過 Softmax 會得到「器」，以此類推，這種 Uses the previous output sequences as an additional input 的機制稱為 Auto-Regressive Model

注意在 Encoder 時做的是 Multi-Head Attention，而在 Decoder 時做 Masked Multi-Head Attention，我們來說明其差異：

raw-image

左圖是我們在 AI說書 - 從0開始 - 52 中提及的 Attention 機制，注意 b¹ 產生的過程是參閱了 a¹、a²、a³、a⁴
但是我們剛剛說 Decoder 是基於 Auto-Regressive Model，因此 Decoder 在產生 b² 時只能參閱 a¹，同理產生 b³ 時只能參閱 a¹、a²，以此類推，不可以偷看未來的結果，因此 Decoder 的 Attention 機制變成下圖：

raw-image

左圖是 Decoder 中的 Attention 機制，多加上一個關鍵字「Masked」，旨在說明：當下產生結果的過程不可以偷看未來的輸入

以上是概覽，現在來看具體機制，何謂不可以偷看：

raw-image

回顧 AI說書 - 從0開始 - 52，我們說 b² 產生的過程是使用 q² 然後參閱k¹、k²、k³、k⁴、v¹、v²、v³、v⁴
但是我剛剛說不可以偷看未來的資訊，因此變成下圖的 Masked Self-Attention：

raw-image

b² 產生的過程是使用 q² 然後參閱k¹、k²、v¹、v²

可以看到這樣就是類似文字接龍的過程，那究竟什麼狀況會讓 Decoder 終止輸出呢？

raw-image

事實上機器學習模型中，除了字典中所有的文字之外，尚會納入 Begin Token 與 End Token，如此一來當「習」這個字匯入 Decoder，產生 End Token 時，就宣告整體文字接龍過程結束

Learn AI 不 BI三分鐘學AIAI從0開始-第二章

留言

留言分享你的想法！

Learn AI 不 BI

246會員

978內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/07/05

AI說書 - 從0開始 - 71

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ，我們完成書籍：Transformers for Natural Language Proc

2024/07/05

AI說書 - 從0開始 - 71

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ，我們完成書籍：Transformers for Natural Language Proc

2024/07/04

AI說書 - 從0開始 - 70

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 的重要性已經被公認了，因此在 Hugging Face 中亦有被實作，呼叫方式如下： !pip -q install transformers

2024/07/04

AI說書 - 從0開始 - 70

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 的重要性已經被公認了，因此在 Hugging Face 中亦有被實作，呼叫方式如下： !pip -q install transformers

2024/07/02

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

2024/07/02

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

你可能也想看

呆神吸塵器

蝦皮雙12必收！搬家收納不崩潰：4樣「空間整理＋貓奴必備」超神好物清單

每次搬家或大整理，是不是都覺得自己是在參加一場體力與耐心的極限挑戰賽？雜物永遠比想像中多、動線永遠不順、家裡還有兩位主子（貓咪）在旁邊搗亂，真的會不知道從哪裡開始整理！😩 別擔心！身為一個經常整理空間、又有貓咪的資深戰鬥員（貓奴），我發現只要選對工具和好物，真的能讓整個過程輕鬆超級多！今天就

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/08

呆神吸塵器

蝦皮雙12必收！搬家收納不崩潰：4樣「空間整理＋貓奴必備」超神好物清單

每次搬家或大整理，是不是都覺得自己是在參加一場體力與耐心的極限挑戰賽？雜物永遠比想像中多、動線永遠不順、家裡還有兩位主子（貓咪）在旁邊搗亂，真的會不知道從哪裡開始整理！😩 別擔心！身為一個經常整理空間、又有貓咪的資深戰鬥員（貓奴），我發現只要選對工具和好物，真的能讓整個過程輕鬆超級多！今天就

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/08

我買了一把「御劍飛行劍」圓了修仙夢！蝦皮雙12交換禮物開箱 × 蝦皮分潤計畫

大家小時候打仙俠尢賴或追仙俠劇時，有沒有幻想過自己能「御劍飛行」？我居然還真的在蝦皮找到了把御劍飛行器啊！！！！！

#蝦皮#交換禮物#雙12

2025/12/02

我買了一把「御劍飛行劍」圓了修仙夢！蝦皮雙12交換禮物開箱 × 蝦皮分潤計畫

大家小時候打仙俠尢賴或追仙俠劇時，有沒有幻想過自己能「御劍飛行」？我居然還真的在蝦皮找到了把御劍飛行器啊！！！！！

#蝦皮#交換禮物#雙12

2025/12/02

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 49

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。再度回到 Transformer 架構中的 Encoder 部分，如下圖所示：我現在手上有的素材如下： Embedding 訓練方式：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 49

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。再度回到 Transformer 架構中的 Encoder 部分，如下圖所示：我現在手上有的素材如下： Embedding 訓練方式：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 47

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 41中，提及 Transformer 的 Encoder 架構如下圖所示：此外我已經在AI說書 - 從0開始 - 42中，

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 47

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 41中，提及 Transformer 的 Encoder 架構如下圖所示：此外我已經在AI說書 - 從0開始 - 42中，

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

#AI#ai#PromptEngineering

2024/06/23

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News