我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
到 AI說書 - 從0開始 - 63 為止,我們已經介紹完 Multi-Head Attention ,接著我們來談 Add & Norm 兩元件的功能:
接著來看 Norm 這個函數要做什麼事,首先回想 AI說書 - 從0開始 - 63 說在原始 Google 釋出的 Transformer 論文,在 Multi-Head Attention 之後的輸出維度將是 3 x 512 ,這個 3 是我現在假設輸入句子有三個字。
現在針對每個字的 512 維度向量,我要經過 Norm 函數,更具體來說是 Layer Normalization 函數,其作法是,輸入一個向量,輸出一樣是一個向量,且維度相同,只是中間的元素經過一些數學調整,數學運作式為: