AI說書 - 從0開始 - 78

更新於 2024/07/07發佈於 2024/07/07閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

回顧 AI說書 - 從0開始 - 77 ，我們在給定句子「 Transformers possess surprising emerging features 」的情況下，分析了 Transformer 中的第六個 Layer 中的第一個 Head 的分數為何，可以得出幾個觀察點：

Transformers 與 Transformers 兩字間的關聯分數為 0.03，明顯變低，它意識到自己與自己有高相關性是必然，但重點在於要學習與他人的相關性才有用
Transformers 與 possess 兩字間的關聯分數為 0.188，變高了，它意識到自己必須學習與他人建立相關性才有用

現在我們來分析 Transformer 中的第六個 Layer 中的第六個 Head 的分數為何 (總共有 8 個 Head ，見 AI說書 - 從0開始 - 63 )：

圖片出自書籍：Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024

對比 Transformer 中的第六個 Layer 中的第一個 Head 的分數，有以下觀察：

Transformers 與 Transformers 兩字間的關聯分數為 0.0098，明顯更低，它意識到自己與自己有高相關性是必然，但重點在於要學習與他人的相關性才有用
Transformers 與 possess 兩字間的關聯分數為 0.2，變更高了，它意識到自己必須學習與他人建立相關性才有用
Transformers 與 possess 兩字間的關聯分數為 0.2，高於其他字，看來 Transformer 學到一個語法：名詞後面接動詞

經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往 Token 發展，再往句子生成發展。

Learn AI 不 BI

218會員

575內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

Learn AI 不 BI 的其他內容

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96，我們完成書籍：Transformers for Natural Language Proce

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96，我們完成書籍：Transformers for Natural Language Proce

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語