2024-06-22|閱讀時間 ‧ 約 22 分鐘

AI說書 - 從0開始 - 41

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


AI說書 - 從0開始 - 39,我們陳述了 Transformer 的全貌,那 Transformer 的 Encoder 部分長怎樣呢,如下所示:


在原始 Transformer 的模型中,此 Encoder Layer 部分重複六次,也就是圖中 N = 6。


每個 Encoder Layer 內包含兩個 Sublayer :

  • Multi-Headed Attention Mechanism
  • Fully Connected Position-Wise Feedforward Network


介紹完圖中的 Sublayer 後,我們將目光轉向綠色方塊:Add & Norm ,當中的 Add 機制稱為 Residual Connection ,目的是確保關鍵輸入訊號不會在傳遞過程中消失,因此綠色方塊的輸出就變成:LayerNormalization(x + Sublayer(x))



分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.