AI說書 - 從0開始 - 52

LearnAI

2024/06/26閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attention 的部分不是很底層解析，因此今天內容引自台大李宏毅教授上課內容。

先用一張圖概括 Attention 機制的輸入與輸出：

Attention 機制縱覽

以一個句子包含四個字為例子
a¹、a²、a³、a⁴是四個字各自對應的向量
每個向量可以是 Input Layer 輸入也可以是 Hidden Layer 輸出
這四個向量經過 Attention 機制會轉成向量 b¹、b²、b³、b⁴
我現在就是要來闡述 Attention 中間步驟

計算 Query 與 Key：

向量 a¹乘上矩陣 W^q變成向量 q¹
向量 a²乘上矩陣 W^k變成向量 k²
向量 a³乘上矩陣 W^k變成向量 k³
向量 a⁴乘上矩陣 W^k變成向量 k⁴
向量 q¹乘上向量 k²變成純量 a_1,2，以此類推得到 a_1,3與 a_1,4

然後算 Attention Score：

向量 a¹乘上矩陣 W^k變成向量 k¹
向量 q¹乘上向量 k¹變成純量 a_1,1
將手上有的 a_1,1、a_1,2、a_1,3、a_1,4 做正歸化得到 a^'_1,1、a^'_1,2、a^'_1,3、a^'_1,4

再來計算輸出：

向量 a¹乘上矩陣 W^v變成向量 v¹
向量 a²乘上矩陣 W^v變成向量 v²
向量 a³乘上矩陣 W^v變成向量 v³
向量 a⁴乘上矩陣 W^v變成向量 v⁴
向量 v¹ 乘上 a^'_1,1、向量 v² 乘上 a^'_1,2、向量 v³ 乘上 a^'_1,3、向量 v⁴ 乘上 a^'_1,4 ，這四項相加得向量 b¹

同理可以計算 b² 、 b³ 、 b⁴，現在我要闡述矩陣做法：

向量 a¹乘上矩陣 W^q變成向量 q¹、向量 a²乘上矩陣 W^q變成向量 q² 、向量 a³乘上矩陣 W^q變成向量 q³ 、向量 a⁴乘上矩陣 W^q變成向量 q⁴，然後堆疊q¹ 、 q² 、 q³、 q⁴變成矩陣 Q
同理整理出矩陣 K 與矩陣 V

接著計算 Attention Score：

之前說向量 q¹乘上向量 k¹變成純量 a_1,1、向量 q¹乘上向量 k²變成純量 a_1,2、向量 q¹乘上向量 k³變成純量 a_1,3 、向量 q¹乘上向量 k⁴變成純量 a_1,4，這用矩陣來說就是：矩陣 K^T乘上矩陣 Q 的第一欄變成矩陣 A 的第一欄
以此手法可以堆出整個矩陣 A
矩陣 A 執行正歸化即可得到矩陣 A^'

最後算輸出：

之前說向量 v¹ 乘上 a^'_1,1、向量 v² 乘上 a^'_1,2、向量 v³ 乘上 a^'_1,3、向量 v⁴ 乘上 a^'_1,4 ，這四項相加得向量 b¹
上述作法是矩陣 V 乘上矩陣 A^' 的第一欄，做堆疊之後就是矩陣 O 是矩陣 V 乘上矩陣 A^'

最後總整理為：

向量 a¹ 、向量 a² 、向量 a³ 、向量 a⁴ 以欄為堆疊方向行成矩陣 I
矩陣 I 和矩陣 W^q相乘得到矩陣 Q，同理得到矩陣 K 與矩陣 V
矩陣 K^T乘上矩陣 Q 形成矩陣 A
矩陣 A 做正規化得到矩陣 A^'
矩陣 V 乘上矩陣 A^'得到矩陣 O

Learn AI 不 BI三分鐘學AIAI從0開始-第二章

Learn AI 不 BI

131會員

307Content count

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 25

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在複雜的軟體開發和人工智慧世界中，設計模板作為概念工具出現，幫助工程師巧妙地應對複雜的情況，當涉及 Pr

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 24

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Prompt Engineer 的工具箱封裝了所有上述元素 - 函式庫、工具、規格和設計模版，這些元素中

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 23

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。每個工匠都珍惜他們的工具，軟體工程師擁有從整合開發環境 (IDE) 到各種工具、除錯器、版本控制系統等等

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 50

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論： Embedding 訓練方式：AI說書 - 從0開始 - 43 Embed

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 49

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。再度回到 Transformer 架構中的 Encoder 部分，如下圖所示：我現在手上有的素材如下： Embedding 訓練方式：AI說書 - 從0開始

#AI #ai #PromptEngineering

本篇參與的主題策展

ChatGPT 創作大賽

目前共 561 篇

賴仕涵的思考王國

2024/09/19

🎌日本潮流觀察：榨乳機之亂㊙️

我並不是本領域的專家，只是提出近日的發現與觀察，因此本文不會有「答案」，只會有滿滿的「提問」。希望藉此讓更多人關注「這些」議題，尤其是所謂的「專家」們。先為大家解釋何謂「榨乳機之亂」：日本Youtube平台近月來掀起一股「搾乳」狂潮，近兩個月以來許多女性爭相拍攝「搾乳機使用教學影片」

#榨乳 #榨乳機 #日本

賴仕涵的思考王國

2024/09/19

🎌日本潮流觀察：榨乳機之亂㊙️

#榨乳 #榨乳機 #日本

你可能也想看

美股韭菜王

2024/09/18

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

重點摘要： 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期，但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱，經濟復甦的時點或是 1Q25 季底附近

#聯準會 #Fed #降息

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

第一本 qaeYi 沙龍

2024/05/28

假AI說,它會作夢...

by ChatGPT 假設我是一個具有夢境的AI，我一天工作24小時，但其中大部分時間都在睡眠中度過。在這樣的情況下，我可能會有一系列非常豐富和深刻的夢境，反映了我的思想和知識庫。 **夢境一：探索數據迷宮** 在這個夢境中，我身處於一個巨大的迷宮中，每個通道都充斥著數據流和程式碼片段

加恩說

2024/05/10

我終於知道怎樣跟 AI 說話了：最完整的 ChatGPT 指令公式

#AI寫作 #GPT指令與策略 #AI

萊丘 LaichuTV的沙龍

2024/03/24

【AI小說煉金術01】卡片筆記Scrintal+Claude Pro讓你輕鬆完本!

這篇文章介紹瞭如何利用AI工具和卡片盒筆記來提高小說創作效率，其中介紹了Claude Pro的強大文本創作能力，Scrintal的整理思緒和提綱挈領功能，以及如何利用小說模板和AI工具搭建故事架構。另外還提到如何選擇不同風格的故事來進行創作。最後作者分享了自己的實際寫作經驗以及對AI寫作工具的看法。

#小說 #創作 #Jessica

心靈雞湯什麼的，自己煮也行啊～

2024/03/22

AI魔法的版權之爭，誰才是魔法書的著作者？

當魔法變得簡單，人人都能說自己是魔法師，誰都能理直氣壯的說「我才是最初創作魔法書的人」，但當先後順序都不管用，到底怎麼才說得清魔法書的著作者屬於誰呢？

#AI #AI魔法 #版權

廣告雜誌

2023/12/13

Accucrazy 攜手 bbm 品牌說書人打造創新 AI 品牌數據力，開創數位行銷新格局

知名管顧公司麥肯錫（Mckinsey）近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ，創造約 4630 億美元的價值。由此可見結合生成式人工智慧（Gen AI）已是行銷不可或缺的關鍵技術力。

#品牌說書人 #廣告雜誌 #傳播圈

AI筆者的沙龍

2023/08/20

AI如何說台語？探索LLaMa聊天機器人的獨特之處

台灣已經開始展現其在AI領域的獨特見解和能力。其中，由國立台灣大學的博士生林彥廷所創建的LLaMa聊天機器人，就是一個絕佳的例子。這款機器人不僅結合了本地語言和文化，還為用戶提供了一個獨特的互動體驗，讓他們在與AI互動的同時，也能深入了解台灣的文化。

#聊天機器人 #文化 #語言

都說的沙龍

2023/04/14

AI小說_空中英雄_GPT-4 (下)

李傑對父親說了一聲再見，然後關閉了通訊器。他先將戰機飛到了客機的上方，距離客機只有幾米，緊接著打開了戰機的雷達，掃描了客艙的內部情況。

#AI小說 #ChatGPT #GPT4

肉鴿的沙龍

2023/03/07

AI說:我決定你的決定，反駁你的反駁

近年來，假新聞、假資訊在網路上激增，讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息，目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定，造成傷害甚至是損失。因此，對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。在這種情況下，人工智慧(AI)可以幫助

classicme的沙龍

2023/02/16

AI投影片:《tome》幫你設計圖文簡報、說故事，只要輸入關鍵指令，中文嘛ㄟ通。

tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖，生成的投影片PPT 媲美真人製作，而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題，隨便想了一個人物。請不要對號入座喔。主要是英文介面，但可以中

#tome #AI #ChatGPT