AI說書 - 從0開始 - 76

AI說書 - 從0開始 - 76

更新於 發佈於 閱讀時間約 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情況下,分析了 Transformer 中的第一個 Layer 中的第一個 Head 的分數為何,可以得出幾個觀察點:

  • 在 AI 中稱的學習或訓練,是在給定 Context 情況下,學習一個字與其他字的關聯,其以機率形式呈現
  • Transformers 與 Transformers 兩字間的關聯分數為 0.79 ,這分數很高並不足為奇,因為與自身相關是理所當然
  • Transformers 與 possess 兩字間的關聯分數為 0.038 ,這分數不高,顯示兩字間不太相關
  • 其他字的關係,以同理類推


我們也可以分析 Transformer 中的第一個 Layer 中的第六個 Head 的分數為何 (總共有 8 個 Head ,見 AI說書 - 從0開始 - 63 ):

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024

對比 Transformer 中的第一個 Layer 中的第一個 Head 的分數,有以下觀察:

  • Transformers 與 Transformers 兩字間的關聯分數為 0.7 ,分數變低了
  • Transformers 與 possess 兩字間的關聯分數為 0.12 ,分數變高了
avatar-img
Learn AI 不 BI
218會員
575內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言
avatar-img
留言分享你的想法!
Learn AI 不 BI 的其他內容
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語