2024-06-23|閱讀時間 ‧ 約 23 分鐘

AI說書 - 從0開始 - 45

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色如下:

圖片出自:Transformers for Natural Language Processing and Computer Vision - Third Edition, Denis Rothman, 2024

原始 Transformer 模型期望始終維持單一向量維度,亦即 dmodel = 512 ,所以這個向量必須要包含 Input Embedding 與 Positional Encoding 兩個資訊。


到底什麼叫做位置資訊呢,回到我們的例子:「The black cat sat on the couch and the brown dog slept on the rug」,之前說 Embedding 已經有能耐賦予 「black」和「brown」這兩個顏色字詞相近的向量,然而這兩個字有著截然不同的位置資訊,「black」這個字的 pos = 2 ,而「brown」這個字的 pos = 10。


在原始 2017 年 Google 提出的 Transformer 模型中使用的 Positional Encoding (PE) 方式為:

圖片出自:Transformers for Natural Language Processing and Computer Vision - Third Edition, Denis Rothman, 2024


分享至
成為作者繼續創作的動力吧!
這頻道將提供三分鐘以內長度的AI知識,讓你一天學一點AI知識,每天進步一點
© 2024 vocus All rights reserved.