我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色如下:
原始 Transformer 模型期望始終維持單一向量維度,亦即 dmodel = 512 ,所以這個向量必須要包含 Input Embedding 與 Positional Encoding 兩個資訊。
到底什麼叫做位置資訊呢,回到我們的例子:「The black cat sat on the couch and the brown dog slept on the rug」,之前說 Embedding 已經有能耐賦予 「black」和「brown」這兩個顏色字詞相近的向量,然而這兩個字有著截然不同的位置資訊,「black」這個字的 pos = 2 ,而「brown」這個字的 pos = 10。
在原始 2017 年 Google 提出的 Transformer 模型中使用的 Positional Encoding (PE) 方式為: