我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
先做個總回顧:
至此講完 Transformer 的 Encoder 部分,而 Decoder 架構如下:
- 原始 Google 的 Transformer 論文中,其於 Decoder 內,一樣配置 N = 6
- 一個 Decoder Layer 中,包含三個 Sublayer ,其分別為:
- Multi-Headed Masked Attention Mechanism
- Multi-Headed Attention Mechanism
- Fully Connected Position-Wise Feedforward Network