我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們已經在AI說書 - 從0開始 - 16走過了部分AI發展軌跡,接著繼續:
- 在1980年代Yann LeCun設計了Convolutional Neural Network (CNN),並應用於文字序列與文字轉導,接著受到1974年由W. A. Little寫的文章:「The Existence of Persistent States in the Brain」的鼓舞,開始進行「Process Information Layer by Layer」
- 1990年代Yann LeCun總結了這些年的心血,發佈了LeNet-5,這是目前很多CNN的根基,縱然CNN有很好的Efficient Architectue,它仍然面臨以下困境:「Face problems when dealing with long-term dependencies in lengthy and complex sequences」
- 接著開始有一個關鍵出現:「The notion of attention appeared: peeking at other tokens in a sequence, not just the last one」,並把此機制加入既有的CNN與RNN
- 爾後研發人員需要對付更長的句子就使用更強大的運算設備,或者是優化Gradient
- 終究是遇到瓶頸,到目前為止的模型融合了「Recurrence」與「Attention」機制,一直到2017年,有了重大突破:「Transformer came with its attention head sublayers and more」,自此之後「RNNs did not appear as a prerequisite for sequence modeling anymore」
大型語言模型 (LLM)的開始與結束都與Token有關,Token是一個句子的「Minimal Word Part」