2024-06-27|閱讀時間 ‧ 約 24 分鐘

AI說書 - 從0開始 - 58

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


目前我們已經完成:


目前我們已經計算出 Attention Score ,現在來執行正規化:


A = [ 2   4   4 
4 16 12
4 12 10 ]


  • 接著對 A 執行正規化得到 A',程式為:
scores[0] = softmax(A.transpose()[0])
scores[1] = softmax(A.transpose()[1])
scores[2] = softmax(A.transpose()[2])
print(scores[0])
print(scores[1])
print(scores[2])
A' = scores.transpose() # Column Normalized


具體數學是這樣,矩陣 A' 的元素我用 [i, j] 來表示:

  • A'[1, 1] = exp(2) / (exp(2) + exp(4) + exp(4))
  • A'[2, 1] = exp(4) / (exp(2) + exp(4) + exp(4))
  • A'[3, 1] = exp(4) / (exp(2) + exp(4) + exp(4))
  • A'[1, 2] = exp(4) / (exp(4) + exp(16) + exp(12))
  • A'[2, 2] = exp(16) / (exp(4) + exp(16) + exp(12))
  • A'[3, 2] = exp(12) / (exp(4) + exp(16) + exp(12))
  • A'[1, 3] = exp(4) / (exp(4) + exp(12) + exp(10))
  • A'[2, 3] = exp(12) / (exp(4) + exp(12) + exp(10))
  • A'[3, 3] = exp(10) / (exp(4) + exp(12) + exp(10))



分享至
成為作者繼續創作的動力吧!
這頻道將提供三分鐘以內長度的AI知識,讓你一天學一點AI知識,每天進步一點
© 2024 vocus All rights reserved.