我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
一個 Transformer 模塊是一個計算單元,其主要由一個注意力層、前饋神經網路(MLP)以及層正規化層構成,我們可以用以下方程來表示經典的 Transformer 模塊:y = x + MLP(LayerNorm(x + Attention(LayerNorm(x)))),這個概念的核心在於,MLP 包含了之前的子層和正規化,注意力子層緊隨嵌入輸入子層之後,而 MLP 則涵蓋了所有這些內容。
而 Google AI 團隊則以以下方式實踐 Transformer 模塊,以實現平行處理:y = x + MLP(LayerNorm(x)) + Attention(LayerNorm(x))。