2024-06-22|閱讀時間 ‧ 約 22 分鐘

AI說書 - 從0開始 - 38

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題:

  • Transformer 架構
  • 自注意力機制
  • 編碼與解碼
  • Embedding
  • Positional Embedding
  • 多頭自注意力
  • Masked Multi-Head Attention
  • 殘差連接
  • 正規化
  • 前向傳播神經網路
  • 輸出機率轉換
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.