AI說書 - 從0開始 - 67

LearnAI

發佈於三分鐘學AI

更新於 2024/06/30發佈於 2024/06/30閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder 的部分不是很底層解析，因此今天內容引自台大李宏毅教授上課內容。

首先解釋何謂 Decoder 是基於 Auto-Regressive Model

假設輸入一段「機器學習」的聲音，希望做語音辨識，而且目前已經執行完 Encoder 部分，關於 Encoder 部分參見 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 65
Decoder 首先輸入 Begin Token ，同時匯入 Encoder 的精華資訊，預期第一個字經過 Softmax 操作後會得到「機」，接著將輸出的「機」，再匯入 Decoder ，預期第二個字經過 Softmax 會得到「器」，以此類推，這種 Uses the previous output sequences as an additional input 的機制稱為 Auto-Regressive Model

注意在 Encoder 時做的是 Multi-Head Attention，而在 Decoder 時做 Masked Multi-Head Attention，我們來說明其差異：

左圖是我們在 AI說書 - 從0開始 - 52 中提及的 Attention 機制，注意 b¹ 產生的過程是參閱了 a¹、a²、a³、a⁴
但是我們剛剛說 Decoder 是基於 Auto-Regressive Model，因此 Decoder 在產生 b² 時只能參閱 a¹，同理產生 b³ 時只能參閱 a¹、a²，以此類推，不可以偷看未來的結果，因此 Decoder 的 Attention 機制變成下圖：

左圖是 Decoder 中的 Attention 機制，多加上一個關鍵字「Masked」，旨在說明：當下產生結果的過程不可以偷看未來的輸入

以上是概覽，現在來看具體機制，何謂不可以偷看：

回顧 AI說書 - 從0開始 - 52，我們說 b² 產生的過程是使用 q² 然後參閱k¹、k²、k³、k⁴、v¹、v²、v³、v⁴
但是我剛剛說不可以偷看未來的資訊，因此變成下圖的 Masked Self-Attention：

b² 產生的過程是使用 q² 然後參閱k¹、k²、v¹、v²

可以看到這樣就是類似文字接龍的過程，那究竟什麼狀況會讓 Decoder 終止輸出呢？

事實上機器學習模型中，除了字典中所有的文字之外，尚會納入 Begin Token 與 End Token，如此一來當「習」這個字匯入 Decoder，產生 End Token 時，就宣告整體文字接龍過程結束

Learn AI 不 BI三分鐘學AIAI從0開始-第二章

Learn AI 不 BI

203會員

519內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

Learn AI 不 BI 的其他內容

AI說書 - Prompt Engineering - 37

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。有效地使用 Prompt 範本需要採取一些策略方法來確保 AI 輸出的清晰度和相關性，以下介紹如何實作

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

AI說書 - Prompt Engineering - 36

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。對於需要精確度、背景和創造力的複雜融合的任務，The Ultimate Template 是無與倫比的，

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 35

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 RTAO 範本簡單而深刻，由四個關鍵元素定義：Role 、 Task 、 Audience 、 Outp

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

#AI #ai #PositionalEncoding

AI說書 - 從0開始 - 64

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。到 AI說書 - 從0開始 - 63 為止，我們已經介紹完 Multi-Head Attention ，接著我們來談 Add & Norm 兩元件的功能： Add

#AI #ai #PositionalEncoding

AI說書 - Prompt Engineering - 37

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 66

#AI #ai #PositionalEncoding

AI說書 - Prompt Engineering - 36

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 35

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 65

#AI #ai #PositionalEncoding

AI說書 - 從0開始 - 64

#AI #ai #PositionalEncoding

你可能也想看

今天來和你分享這本我剛讀完的「AI 世界的底層邏輯與生存法則」。當大家一股腦地想投入AI的領域當中時，這本書的作者程世嘉帶著我們用更高的視角和思維來思考，在AI時代下最重要的底層思考邏輯，找出那些最有價值的核心觀念，幫助我們在這個快速變化的世界當中站穩腳步，釐清未來的方向。

#AI #AI世界 #AI世界的底層邏輯與生存法則

蠢孩子

2024/07/08

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖 #AI製圖 #圖片

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》時，對一些看似基本，但是重要且會影響到之後實作的項目概念有點疑惑，覺得應該查清楚，所以搞懂後記錄下來，寫下這篇文章(應該說是筆記？)。正文下面這段程式碼： model = Sequential() model.add

https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了；現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量影片中GPT3共儲存50257個英文單字, 每

#AI #LLM #GPT

無限智慧學院的沙龍

2024/06/13

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

預計量子AI計算會在2032年左右來到，在這之前，我們還有充足的時間可以逐步去學習量子計算與演算法，讓我們按部就班，持續前進，做輕鬆無負擔的超前學習 !

#QuantumComputing #Qiskit #braket

貓貓學習筆記

2024/05/27

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI #TextToSpeech #Pytorch

創作邦｜設計X工具X品牌的沙龍

2024/05/01

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

AI 相關的內容每天都非常多，有聽過很多人因此感覺到焦慮，怕錯過了最新資訊就會趕不上，這篇內容會跟大家詳細的分享我自己的學習方法和經驗，並且會在最後分享一些我的學習資訊來源。

#AI #學習 #創作

王啟樺的沙龍

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

#大語言模型 #ChatGPT #人工智慧

一二三的沙龍

2024/03/18

探索書籍摘要的新領域：利用人類反饋的OpenAI研究

透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現，也象徵著未來人工智慧與人類知識互動的無限可能性。

#OpenAI #人工智慧 #人類

勤嬉軒

2024/01/22

【閱讀】AI背後的暗知識：機器如何學習、認知與改造我們的未來世界

近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野，讓AI成為了熱門話題，網路媒體和論壇冒出許多相關的文章，足見AI之勢著實非同小可。

#AI #AI世界 #AI世界的底層邏輯與生存法則

蠢孩子

2024/07/08

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖 #AI製圖 #圖片

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

#QuantumComputing #Qiskit #braket

貓貓學習筆記

2024/05/27

TextToSpeech-神經網路如何理解文字

#AI #TextToSpeech #Pytorch

創作邦｜設計X工具X品牌的沙龍

2024/05/01

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

#AI #學習 #創作

王啟樺的沙龍

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

#大語言模型 #ChatGPT #人工智慧

一二三的沙龍

2024/03/18

探索書籍摘要的新領域：利用人類反饋的OpenAI研究

透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現，也象徵著未來人工智慧與人類知識互動的無限可能性。

#OpenAI #人工智慧 #人類

勤嬉軒

2024/01/22

【閱讀】AI背後的暗知識：機器如何學習、認知與改造我們的未來世界

近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野，讓AI成為了熱門話題，網路媒體和論壇冒出許多相關的文章，足見AI之勢著實非同小可。

#AI #暗知識 #閱讀