AI說書 - 從0開始 - 53我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention:
Head 1 AI說書 - 從0開始 - 52我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti AI說書 - 從0開始 - 51我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att AI說書 - 從0開始 - 50我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
這裡做 Embedding 與 Postional Encoding 的邏輯梳理與結論:
Embedding 訓練方式:AI說書 - 從0開始 - 43
Embed AI說書 - 從0開始 - 49我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
再度回到 Transformer 架構中的 Encoder 部分,如下圖所示:
我現在手上有的素材如下:
Embedding 訓練方式:AI說書 - 從0開始 AI說書 - 從0開始 - 48我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們已經在 AI說書 - 從0開始 - 47 闡述完 Positional Encoding 的作法了,按照句子:「The black cat sat on the c AI說書 - 從0開始 - 47我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
回顧我們在AI說書 - 從0開始 - 41中,提及 Transformer 的 Encoder 架構如下圖所示:
此外我已經在AI說書 - 從0開始 - 42中, AI說書 - 從0開始 - 46我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續AI說書 - 從0開始 - 45,我們介紹了 Google 於2017 年提出的 Transformer 架構的 Positional Encoding (PE) AI說書 - 從0開始 - 45我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色 AI說書 - 從0開始 - 44我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們已經在AI說書 - 從0開始 - 43中,闡述了 Embedding 的訓練方式,現在我們來看是否 Embedding 如我們預期般運作:
假設我的目標句子是