AI說書 - 從0開始 - 52

更新於 發佈於 閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attention 的部分不是很底層解析,因此今天內容引自台大 李宏毅教授上課內容。


先用一張圖概括 Attention 機制的輸入與輸出:

Attention 機制縱覽

Attention 機制縱覽

  • 以一個句子包含四個字為例子
  • a1、a2、a3、a4 是四個字各自對應的向量
  • 每個向量可以是 Input Layer 輸入也可以是 Hidden Layer 輸出
  • 這四個向量經過 Attention 機制會轉成向量 b1、b2、b3、b4
  • 我現在就是要來闡述 Attention 中間步驟



計算 Query 與 Key:

raw-image
  • 向量 a1 乘上矩陣 Wq 變成向量 q1
  • 向量 a2 乘上矩陣 Wk 變成向量 k2
  • 向量 a3 乘上矩陣 Wk 變成向量 k3
  • 向量 a4 乘上矩陣 Wk 變成向量 k4
  • 向量 q1 乘上向量 k2 變成純量 a1,2 ,以此類推得到 a1,3 與 a1,4


然後算 Attention Score:

raw-image
  • 向量 a1 乘上矩陣 Wk 變成向量 k1
  • 向量 q1 乘上向量 k1 變成純量 a1,1
  • 將手上有的 a1,1、a1,2、a1,3、a1,4 做正歸化得到 a'1,1、a'1,2、a'1,3、a'1,4





再來計算輸出:

raw-image
  • 向量 a1 乘上矩陣 Wv 變成向量 v1
  • 向量 a2 乘上矩陣 Wv 變成向量 v2
  • 向量 a3 乘上矩陣 Wv 變成向量 v3
  • 向量 a4 乘上矩陣 Wv 變成向量 v4
  • 向量 v1 乘上 a'1,1 、 向量 v2 乘上 a'1,2、 向量 v3 乘上 a'1,3 、 向量 v4 乘上 a'1,4 , 這四項相加得向量 b1



同理可以計算 b2 、 b3 、 b4 ,現在我要闡述矩陣做法:

raw-image
  • 向量 a1 乘上矩陣 Wq 變成向量 q1 、 向量 a2 乘上矩陣 Wq 變成向量 q2 、 向量 a3 乘上矩陣 Wq 變成向量 q3 、 向量 a4 乘上矩陣 Wq 變成向量 q4 ,然後堆疊q1 、 q2 、 q3 、 q4 變成矩陣 Q
  • 同理整理出矩陣 K 與矩陣 V



接著計算 Attention Score:

raw-image
  • 之前說向量 q1 乘上向量 k1 變成純量 a1,1 、 向量 q1 乘上向量 k2 變成純量 a1,2 、 向量 q1 乘上向量 k3 變成純量 a1,3 、 向量 q1 乘上向量 k4 變成純量 a1,4 ,這用矩陣來說就是:矩陣 KT 乘上矩陣 Q 的第一欄變成矩陣 A 的第一欄
  • 以此手法可以堆出整個矩陣 A
  • 矩陣 A 執行正歸化即可得到矩陣 A'



最後算輸出:

raw-image
  • 之前說向量 v1 乘上 a'1,1 、 向量 v2 乘上 a'1,2、 向量 v3 乘上 a'1,3 、 向量 v4 乘上 a'1,4 , 這四項相加得向量 b1
  • 上述作法是矩陣 V 乘上矩陣 A' 的第一欄,做堆疊之後就是矩陣 O 是矩陣 V 乘上矩陣 A'



最後總整理為:

raw-image
  • 向量 a1 、 向量 a2 、 向量 a3 、 向量 a4 以欄為堆疊方向行成矩陣 I
  • 矩陣 I 和矩陣 Wq 相乘得到矩陣 Q,同理得到矩陣 K 與矩陣 V
  • 矩陣 KT 乘上矩陣 Q 形成矩陣 A
  • 矩陣 A 做正規化得到矩陣 A'
  • 矩陣 V 乘上矩陣 A' 得到矩陣 O



avatar-img
177會員
468內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在複雜的軟體開發和人工智慧世界中,設計模板作為概念工具出現,幫助工程師巧妙地應對複雜的情況,當涉及 Pr
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineer 的工具箱封裝了所有上述元素 - 函式庫、工具、規格和設計模版,這些元素中
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 每個工匠都珍惜他們的工具,軟體工程師擁有從整合開發環境 (IDE) 到各種工具、除錯器、版本控制系統等等
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論: Embedding 訓練方式:AI說書 - 從0開始 - 43 Embed
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在複雜的軟體開發和人工智慧世界中,設計模板作為概念工具出現,幫助工程師巧妙地應對複雜的情況,當涉及 Pr
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineer 的工具箱封裝了所有上述元素 - 函式庫、工具、規格和設計模版,這些元素中
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 每個工匠都珍惜他們的工具,軟體工程師擁有從整合開發環境 (IDE) 到各種工具、除錯器、版本控制系統等等
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論: Embedding 訓練方式:AI說書 - 從0開始 - 43 Embed
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
今天接觸到兩個重點方向,我覺得每個人都可以去嘗試思考,也是我最近在試著去了解更深的主軸: ①提升思維、善用AI工具。 包括接觸商業和產品知識,再用工具加速、更有效達標。 ②自媒體——讓人認識你。 如果要做自媒體,可以先思考目的,比如我的目標是寫作出書,就不需要花太多時間分享生活娛
AI 科技的發展,有助於提高工作效率、節省時間和開發創意,從而提升你的經營自媒體的績效,使學習AI變得更加重要。這篇文章討論了學習AI技能的價值和重要性,並提供了一些具體的學習成果。
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,對一些看似基本,但是重要且會影響到之後實作的項目概念有點疑惑,覺得應該查清楚,所以搞懂後記錄下來,寫下這篇文章(應該說是筆記?)。 正文 下面這段程式碼: model = Sequential() model.add
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
今天接觸到兩個重點方向,我覺得每個人都可以去嘗試思考,也是我最近在試著去了解更深的主軸: ①提升思維、善用AI工具。 包括接觸商業和產品知識,再用工具加速、更有效達標。 ②自媒體——讓人認識你。 如果要做自媒體,可以先思考目的,比如我的目標是寫作出書,就不需要花太多時間分享生活娛
AI 科技的發展,有助於提高工作效率、節省時間和開發創意,從而提升你的經營自媒體的績效,使學習AI變得更加重要。這篇文章討論了學習AI技能的價值和重要性,並提供了一些具體的學習成果。
Thumbnail
AI 相關的內容每天都非常多,有聽過很多人因此感覺到焦慮,怕錯過了最新資訊就會趕不上,這篇內容會跟大家詳細的分享我自己的學習方法和經驗,並且會在最後分享一些我的學習資訊來源。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。