我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
回顧 AI說書 - 從0開始 - 77 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情況下,分析了 Transformer 中的第六個 Layer 中的第一個 Head 的分數為何,可以得出幾個觀察點:
- Transformers 與 Transformers 兩字間的關聯分數為 0.03,明顯變低,它意識到自己與自己有高相關性是必然,但重點在於要學習與他人的相關性才有用
- Transformers 與 possess 兩字間的關聯分數為 0.188,變高了,它意識到自己必須學習與他人建立相關性才有用
現在我們來分析 Transformer 中的第六個 Layer 中的第六個 Head 的分數為何 (總共有 8 個 Head ,見 AI說書 - 從0開始 - 63 ):
圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024
對比 Transformer 中的第六個 Layer 中的第一個 Head 的分數,有以下觀察:
- Transformers 與 Transformers 兩字間的關聯分數為 0.0098,明顯更低,它意識到自己與自己有高相關性是必然,但重點在於要學習與他人的相關性才有用
- Transformers 與 possess 兩字間的關聯分數為 0.2,變更高了,它意識到自己必須學習與他人建立相關性才有用
- Transformers 與 possess 兩字間的關聯分數為 0.2,高於其他字,看來 Transformer 學到一個語法:名詞後面接動詞
經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往 Token 發展,再往句子生成發展。