我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情況下,分析了 Transformer 中的第一個 Layer 中的第六個 Head 的分數為何,可以得出幾個觀察點
現在我們來分析 Transformer 中的第六個 Layer 中的第一個 Head 的分數為何 (總共有 6 個 Layer ,見 AI說書 - 從0開始 - 42 ):
對比 Transformer 中的第一個 Layer 中的第六個 Head 的分數,有以下觀察: