AI說書 - 從0開始 - 68

LearnAI

發佈於三分鐘學AI

更新於 2024/07/01發佈於 2024/07/01閱讀時間約 5 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

仔細看 AI說書 - 從0開始 - 66 中，Decoder 的 Multi-Head Attention 框框，會發現有一條線空接，其實它是有意義的，之所以空接，是因為它與 Encoder 對接，全貌如下：

在 Decoder 的 Attention 機制稱為 Cross Attention，其和 Encoder 的 Self-Attetion 做出區隔
此處的 Corss Attention 的機制，有兩個元素從 Encoder 而來 (藍色圈圈)，一個元素從 Decoder 自身而來 (綠色圈圈)
下一張圖講述 Cross Attention 機制的運作方式

Cross Attention 機制的運作方式如下：

Begin Token 經過 Mask Attention 得到一向量，再乘上 W^q變成向量 q
a1、a2、a3 各別乘上 W^k與 W^v 變成 k¹、k²、k³與v¹、v²、v³，注意這裡是 Encoder 地盤
q 乘上 k¹、k²、k³ 再經過正規化得 a^'₁、a^'₂、a^'₃
a^'₁、a^'₂、a^'₃ 各自乘上 v¹、v²、v³ 相加後得 v
這是第一個字的作法

那第二個字的作法如下：

Begin Token 與「機」經過 Mask Attention 得到一向量，再乘上 W^q變成向量 q^'
a1、a2、a3 各別乘上 W^k與 W^v 變成 k¹、k²、k³與v¹、v²、v³，注意這裡是 Encoder 地盤
q^' 乘上 k¹、k²、k³ 再經過正規化得 a^'₁、a^'₂、a^'₃
a^'₁、a^'₂、a^'₃ 各自乘上 v¹、v²、v³ 相加後得 v^'
這是第二個字的作法

最後列出幾段課本 (Transformers for Natural Language Processing and Computer Vision, 2024) 很美的話，當作知識點整理：

The multi-head attention sublayer 2 also only attends to the positions up to the current position the Transformer is predicting to avoid seeing the sequence it must predict.
The multi-head attention sublayer 2 draws information from the encoder by taking encoder (K, V) into account during the dot-product attention operations. This sublayer also draws information from the masked multi-head attention sublayer 1 (masked attention) by also taking sublayer 1 (Q) into account during the dot-product attention operations.
The linear layer produces an output sequence with a linear function that varies per model but relies on the standard method: y = wx + b.
At the top layer of the decoder, the transformer will reach the output layer, which will map the outputs of the model to the size of the vocabulary to produce the raw logits of the prediction.
The raw logits of the output can go through a softmax function, apply the values obtained to the tokens in the vocabulary, and choose the best probable token for the task requested, or apply sampling functions.

The Transformer produces an output sequence of only one element at a time.

Learn AI 不 BI三分鐘學AIAI從0開始-第二章

Learn AI 不 BI

194會員

509內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言5

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

Learn AI 不 BI 的其他內容

AI說書 - Prompt Engineering - 38

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。有效地使用 Prompt 範本需要採取一些策略方法來確保 AI 輸出的清晰度和相關性，以下介紹如何實作

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 37

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI #ai #PositionalEncoding

AI說書 - Prompt Engineering - 36

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。對於需要精確度、背景和創造力的複雜融合的任務，The Ultimate Template 是無與倫比的，

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 35

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 RTAO 範本簡單而深刻，由四個關鍵元素定義：Role 、 Task 、 Audience 、 Outp

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 38

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 67

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 37

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 66

#AI #ai #PositionalEncoding

AI說書 - Prompt Engineering - 36

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 35

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

曼徹的矽谷旅記 Mencher’s Travelogue

2024/08/05

ML Infra 一大戰場 - 分散式訓練

本系列將討論 LLM 時代中，分散 ML workload 的各種方法。作為系列的第一篇，我們將提及 High-level 的概論，譬如分散式訓練的各種切法、Model Parallelism 的相依問題，以及改善 Network Topology 等課題。

#討論 #ML #LLM

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》時，對一些看似基本，但是重要且會影響到之後實作的項目概念有點疑惑，覺得應該查清楚，所以搞懂後記錄下來，寫下這篇文章(應該說是筆記？)。正文下面這段程式碼： model = Sequential() model.add

#閱讀筆記 #人工智慧 #名詞解釋

自由豐盛社群 Glowing Up

2024/06/17

AI 指令教學：借用名人故事和框架，快速吸引你的觀眾

在網路世界初出茅廬時，不管你的文章內容多有價值，大多數時你只會遇到一片寂靜。這篇文章將分享如何利用 AI 指令並借用名人故事和框架，快速吸引你的觀眾，讓你的內容更具影響力。

https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了；現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量影片中GPT3共儲存50257個英文單字, 每

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

#ChatGPT #學習 #AI

偶希都理

2024/05/29

閱讀筆記《跨能致勝：顛覆一萬小時打造天才的迷思，最適用於AI世代的成功法》

★願意多方嘗試、累積多重專業、能策略思考才是未來最需要的人才！

【AI整理Threads的優點】還沒被文字獄跟詐騙洗禮的園地，公司還是META，以後就不知道了，現況還OK。發長文跟連結也不至於降觸及。 1. 專注性： Threads 專注於特定主題，使其更適合深入討論和互動。用戶可以創建群組來討論特定的興趣或話題，並邀請朋友和關注者加入。這使得 Thr

#Threads #Instagram #分享

創作邦｜設計X工具X品牌的沙龍

2024/05/01

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

AI 相關的內容每天都非常多，有聽過很多人因此感覺到焦慮，怕錯過了最新資訊就會趕不上，這篇內容會跟大家詳細的分享我自己的學習方法和經驗，並且會在最後分享一些我的學習資訊來源。

#AI #學習 #創作

私大教育所 (私人大學教育研究所) by mr gary

2024/01/22

《Brief AI 電子報》每日 3 分鐘掌握 AI 趨勢

http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888

曼徹的矽谷旅記 Mencher’s Travelogue

2024/08/05

ML Infra 一大戰場 - 分散式訓練

#討論 #ML #LLM

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

#閱讀筆記 #人工智慧 #名詞解釋

自由豐盛社群 Glowing Up

2024/06/17

AI 指令教學：借用名人故事和框架，快速吸引你的觀眾

閱讀筆記《跨能致勝：顛覆一萬小時打造天才的迷思，最適用於AI世代的成功法》

★願意多方嘗試、累積多重專業、能策略思考才是未來最需要的人才！

#Threads #Instagram #分享

創作邦｜設計X工具X品牌的沙龍

2024/05/01

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

#AI #學習 #創作

私大教育所 (私人大學教育研究所) by mr gary

2024/01/22

《Brief AI 電子報》每日 3 分鐘掌握 AI 趨勢

http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888