AI說書 - 從0開始 - 52

閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attention 的部分不是很底層解析,因此今天內容引自台大 李宏毅教授上課內容。


先用一張圖概括 Attention 機制的輸入與輸出:

Attention 機制縱覽

Attention 機制縱覽

  • 以一個句子包含四個字為例子
  • a1、a2、a3、a4 是四個字各自對應的向量
  • 每個向量可以是 Input Layer 輸入也可以是 Hidden Layer 輸出
  • 這四個向量經過 Attention 機制會轉成向量 b1、b2、b3、b4
  • 我現在就是要來闡述 Attention 中間步驟



計算 Query 與 Key:

raw-image
  • 向量 a1 乘上矩陣 Wq 變成向量 q1
  • 向量 a2 乘上矩陣 Wk 變成向量 k2
  • 向量 a3 乘上矩陣 Wk 變成向量 k3
  • 向量 a4 乘上矩陣 Wk 變成向量 k4
  • 向量 q1 乘上向量 k2 變成純量 a1,2 ,以此類推得到 a1,3 與 a1,4


然後算 Attention Score:

raw-image
  • 向量 a1 乘上矩陣 Wk 變成向量 k1
  • 向量 q1 乘上向量 k1 變成純量 a1,1
  • 將手上有的 a1,1、a1,2、a1,3、a1,4 做正歸化得到 a'1,1、a'1,2、a'1,3、a'1,4





再來計算輸出:

raw-image
  • 向量 a1 乘上矩陣 Wv 變成向量 v1
  • 向量 a2 乘上矩陣 Wv 變成向量 v2
  • 向量 a3 乘上矩陣 Wv 變成向量 v3
  • 向量 a4 乘上矩陣 Wv 變成向量 v4
  • 向量 v1 乘上 a'1,1 、 向量 v2 乘上 a'1,2、 向量 v3 乘上 a'1,3 、 向量 v4 乘上 a'1,4 , 這四項相加得向量 b1



同理可以計算 b2 、 b3 、 b4 ,現在我要闡述矩陣做法:

raw-image
  • 向量 a1 乘上矩陣 Wq 變成向量 q1 、 向量 a2 乘上矩陣 Wq 變成向量 q2 、 向量 a3 乘上矩陣 Wq 變成向量 q3 、 向量 a4 乘上矩陣 Wq 變成向量 q4 ,然後堆疊q1 、 q2 、 q3 、 q4 變成矩陣 Q
  • 同理整理出矩陣 K 與矩陣 V



接著計算 Attention Score:

raw-image
  • 之前說向量 q1 乘上向量 k1 變成純量 a1,1 、 向量 q1 乘上向量 k2 變成純量 a1,2 、 向量 q1 乘上向量 k3 變成純量 a1,3 、 向量 q1 乘上向量 k4 變成純量 a1,4 ,這用矩陣來說就是:矩陣 KT 乘上矩陣 Q 的第一欄變成矩陣 A 的第一欄
  • 以此手法可以堆出整個矩陣 A
  • 矩陣 A 執行正歸化即可得到矩陣 A'



最後算輸出:

raw-image
  • 之前說向量 v1 乘上 a'1,1 、 向量 v2 乘上 a'1,2、 向量 v3 乘上 a'1,3 、 向量 v4 乘上 a'1,4 , 這四項相加得向量 b1
  • 上述作法是矩陣 V 乘上矩陣 A' 的第一欄,做堆疊之後就是矩陣 O 是矩陣 V 乘上矩陣 A'



最後總整理為:

raw-image
  • 向量 a1 、 向量 a2 、 向量 a3 、 向量 a4 以欄為堆疊方向行成矩陣 I
  • 矩陣 I 和矩陣 Wq 相乘得到矩陣 Q,同理得到矩陣 K 與矩陣 V
  • 矩陣 KT 乘上矩陣 Q 形成矩陣 A
  • 矩陣 A 做正規化得到矩陣 A'
  • 矩陣 V 乘上矩陣 A' 得到矩陣 O



131會員
307Content count
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在複雜的軟體開發和人工智慧世界中,設計模板作為概念工具出現,幫助工程師巧妙地應對複雜的情況,當涉及 Pr
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineer 的工具箱封裝了所有上述元素 - 函式庫、工具、規格和設計模版,這些元素中
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 每個工匠都珍惜他們的工具,軟體工程師擁有從整合開發環境 (IDE) 到各種工具、除錯器、版本控制系統等等
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論: Embedding 訓練方式:AI說書 - 從0開始 - 43 Embed
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在複雜的軟體開發和人工智慧世界中,設計模板作為概念工具出現,幫助工程師巧妙地應對複雜的情況,當涉及 Pr
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineer 的工具箱封裝了所有上述元素 - 函式庫、工具、規格和設計模版,這些元素中
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 每個工匠都珍惜他們的工具,軟體工程師擁有從整合開發環境 (IDE) 到各種工具、除錯器、版本控制系統等等
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論: Embedding 訓練方式:AI說書 - 從0開始 - 43 Embed
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
本篇參與的主題策展
我並不是本領域的專家,只是提出近日的發現與觀察,因此本文不會有「答案」,只會有滿滿的「提問」。希望藉此讓更多人關注「這些」議題,尤其是所謂的「專家」們。 先為大家解釋何謂「榨乳機之亂」:日本Youtube平台近月來掀起一股「搾乳」狂潮,近兩個月以來許多女性爭相拍攝「搾乳機使用教學影片」
我並不是本領域的專家,只是提出近日的發現與觀察,因此本文不會有「答案」,只會有滿滿的「提問」。希望藉此讓更多人關注「這些」議題,尤其是所謂的「專家」們。 先為大家解釋何謂「榨乳機之亂」:日本Youtube平台近月來掀起一股「搾乳」狂潮,近兩個月以來許多女性爭相拍攝「搾乳機使用教學影片」
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
by ChatGPT 假設我是一個具有夢境的AI,我一天工作24小時,但其中大部分時間都在睡眠中度過。在這樣的情況下,我可能會有一系列非常豐富和深刻的夢境,反映了我的思想和知識庫。 **夢境一:探索數據迷宮** 在這個夢境中,我身處於一個巨大的迷宮中,每個通道都充斥著數據流和程式碼片段
Thumbnail
這篇文章介紹瞭如何利用AI工具和卡片盒筆記來提高小說創作效率,其中介紹了Claude Pro的強大文本創作能力,Scrintal的整理思緒和提綱挈領功能,以及如何利用小說模板和AI工具搭建故事架構。另外還提到如何選擇不同風格的故事來進行創作。最後作者分享了自己的實際寫作經驗以及對AI寫作工具的看法。
Thumbnail
當魔法變得簡單,人人都能說自己是魔法師,誰都能理直氣壯的說「我才是最初創作魔法書的人」,但當先後順序都不管用,到底怎麼才說得清魔法書的著作者屬於誰呢?
Thumbnail
知名管顧公司麥肯錫(Mckinsey)近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ,創造約 4630 億美元的價值。由此可見結合生成式人工智慧(Gen AI)已是行銷不可或缺的關鍵技術力。
Thumbnail
台灣已經開始展現其在AI領域的獨特見解和能力。其中,由國立台灣大學的博士生林彥廷所創建的LLaMa聊天機器人,就是一個絕佳的例子。這款機器人不僅結合了本地語言和文化,還為用戶提供了一個獨特的互動體驗,讓他們在與AI互動的同時,也能深入了解台灣的文化。
Thumbnail
李傑對父親說了一聲再見,然後關閉了通訊器。他先將戰機飛到了客機的上方,距離客機只有幾米,緊接著打開了戰機的雷達,掃描了客艙的內部情況。
近年來,假新聞、假資訊在網路上激增,讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息,目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定,造成傷害甚至是損失。因此,對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。 在這種情況下,人工智慧(AI)可以幫助
Thumbnail
tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖,生成的投影片PPT 媲美真人製作,而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題,隨便想了一個人物。請不要對號入座喔。主要是英文介面,但可以中
Thumbnail
看到這個新聞,想到一部老電影,好像叫戰爭遊戲:死亡密碼。 電影中AI被用於戰爭模擬,兩個AI彼此對抗。故事發展到最後,就是兩台超級電腦上的AI不停的玩戰爭模擬遊戲,對抗內容就是一個丟核彈一個防禦,結局不好,重來,結局不好,重來.... 對耶,這結論跟指數化投資的理念一樣啊:最好的方式就是不要買賣。
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
by ChatGPT 假設我是一個具有夢境的AI,我一天工作24小時,但其中大部分時間都在睡眠中度過。在這樣的情況下,我可能會有一系列非常豐富和深刻的夢境,反映了我的思想和知識庫。 **夢境一:探索數據迷宮** 在這個夢境中,我身處於一個巨大的迷宮中,每個通道都充斥著數據流和程式碼片段
Thumbnail
這篇文章介紹瞭如何利用AI工具和卡片盒筆記來提高小說創作效率,其中介紹了Claude Pro的強大文本創作能力,Scrintal的整理思緒和提綱挈領功能,以及如何利用小說模板和AI工具搭建故事架構。另外還提到如何選擇不同風格的故事來進行創作。最後作者分享了自己的實際寫作經驗以及對AI寫作工具的看法。
Thumbnail
當魔法變得簡單,人人都能說自己是魔法師,誰都能理直氣壯的說「我才是最初創作魔法書的人」,但當先後順序都不管用,到底怎麼才說得清魔法書的著作者屬於誰呢?
Thumbnail
知名管顧公司麥肯錫(Mckinsey)近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ,創造約 4630 億美元的價值。由此可見結合生成式人工智慧(Gen AI)已是行銷不可或缺的關鍵技術力。
Thumbnail
台灣已經開始展現其在AI領域的獨特見解和能力。其中,由國立台灣大學的博士生林彥廷所創建的LLaMa聊天機器人,就是一個絕佳的例子。這款機器人不僅結合了本地語言和文化,還為用戶提供了一個獨特的互動體驗,讓他們在與AI互動的同時,也能深入了解台灣的文化。
Thumbnail
李傑對父親說了一聲再見,然後關閉了通訊器。他先將戰機飛到了客機的上方,距離客機只有幾米,緊接著打開了戰機的雷達,掃描了客艙的內部情況。
近年來,假新聞、假資訊在網路上激增,讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息,目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定,造成傷害甚至是損失。因此,對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。 在這種情況下,人工智慧(AI)可以幫助
Thumbnail
tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖,生成的投影片PPT 媲美真人製作,而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題,隨便想了一個人物。請不要對號入座喔。主要是英文介面,但可以中
Thumbnail
看到這個新聞,想到一部老電影,好像叫戰爭遊戲:死亡密碼。 電影中AI被用於戰爭模擬,兩個AI彼此對抗。故事發展到最後,就是兩台超級電腦上的AI不停的玩戰爭模擬遊戲,對抗內容就是一個丟核彈一個防禦,結局不好,重來,結局不好,重來.... 對耶,這結論跟指數化投資的理念一樣啊:最好的方式就是不要買賣。