AI說書 - 從0開始 - 17

閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


我們已經在AI說書 - 從0開始 - 16走過了部分AI發展軌跡,接著繼續:


  • 在1980年代Yann LeCun設計了Convolutional Neural Network (CNN),並應用於文字序列與文字轉導,接著受到1974年由W. A. Little寫的文章:「The Existence of Persistent States in the Brain」的鼓舞,開始進行「Process Information Layer by Layer」
  • 1990年代Yann LeCun總結了這些年的心血,發佈了LeNet-5,這是目前很多CNN的根基,縱然CNN有很好的Efficient Architectue,它仍然面臨以下困境:「Face problems when dealing with long-term dependencies in lengthy and complex sequences」
  • 接著開始有一個關鍵出現:「The notion of attention appeared: peeking at other tokens in a sequence, not just the last one」,並把此機制加入既有的CNN與RNN
  • 爾後研發人員需要對付更長的句子就使用更強大的運算設備,或者是優化Gradient
  • 終究是遇到瓶頸,到目前為止的模型融合了「Recurrence」與「Attention」機制,一直到2017年,有了重大突破:「Transformer came with its attention head sublayers and more」,自此之後「RNNs did not appear as a prerequisite for sequence modeling anymore」


大型語言模型 (LLM)的開始與結束都與Token有關,Token是一個句子的「Minimal Word Part」

5會員
72內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。同時分享各種網路賺錢方法,包含實測結果
留言0
查看全部
發表第一個留言支持創作者!
LearnAI的沙龍 的其他內容
AI說書 - 從0開始 - 13
閱讀時間約 2 分鐘
AI說書 - 從0開始 - 14
閱讀時間約 1 分鐘
AI說書 - Prompt Engineering - 5
閱讀時間約 1 分鐘
AI說書 - Prompt Engineering - 6
閱讀時間約 1 分鐘
AI說書 - 從0開始 - 15
閱讀時間約 2 分鐘
AI說書 - 從0開始 - 16
閱讀時間約 3 分鐘