更新於 2024/06/15閱讀時間約 3 分鐘

AI說書 - 從0開始 - 16

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


我們已經在AI說書 - 從0開始 - 15總結了Transformer比RNN還要好的結論,接著來鋪陳AI的歷史軌跡,以達到目前Transformer的巔峰。


  • 在19世紀晚期至20世紀初期,Andrey Markov引入了「隨機變數」並展開了「Stochastic Process」的理論,這尤其重要,因為我們在目前AI常常會聽到以下個關鍵字:「Markov Decision Process」、「Markov Chains」、「Markov Process」,其核心思想就是:「Markov showed that we could predict the next element of a chain, a sequence, using only the most recent elements of that chain
  • 1948年Claude Shannon發表論文:The Mathematical Theory of Communication,這奠基了以下幾個關鍵字:「Source Encoder」、「 Transmitter」、「Receiver」、「Semantic Decoder」、「Information Theory
  • 1950年Alan Turing發表文章:「Computing Machinery and Intelligence」,這奠基了以下幾個關鍵字:「Machine Inteligence」、「Turing Machine」,它在二次世界大戰解碼了德軍的訊息
  • 1954年Georgetown-IBM實驗使用「Rule System」將俄國句子翻譯成英文句子,這系統由一堆可以分析資料結構的「Rule」所組成,但是我們想要更聰明一點:「Machine intelligence can replace rule lists for the billions of language combinations by automatically learning the patterns」
  • 奠基於1974年由W. A. Little寫的文章:「The Existence of Persistent States in the Brain」,John Hopfield於1982年發表了「RNN」,亦可叫「Hopfield Networks」、「Associative Neural Networks」,LSTM便是RNN的延伸,RNN​的示意圖如下:

資料出自書籍:Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024.

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.