我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
目前我們已經完成:
針對輸入向量和 Query 權重矩陣相乘:
Q = np.matmul(x, W_Query)
針對輸入向量和 Key 權重矩陣相乘:
K = np.matmul(x, W_Key)
針對輸入向量和 Value 權重矩陣相乘:
V = np.matmul(x, W_Value)
整理圖示化結果如下,給定一段句子,假設有三個字,每個字用 4 維度的向量表示,然後配置 Query 、 Key 、 Value 三個矩陣,其維度均為 4 x 3 :
這可以和我們在 AI說書 - 從0開始 - 52 的圖示結果對照: