我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題:Transformer 架構自注意力機制編碼與解碼EmbeddingPositional Embedding多頭自注意力Masked Multi-Head Attention殘差連接正規化前向傳播神經網路輸出機率轉換