我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
ChatGPT 是涵蓋 GPT-3.5-turbo、GPT-4、GPT-4V 和未來可能的改進的總稱,架構的規模同時演進:
該架構的尺寸解釋了為什麼擁有 96 層的 GPT-3 175B 比只有 40 層的 GPT-2 1542M 產生了更令人印象深刻的結果,兩個模型的參數相當,但層數增加了一倍,讓我們專注於上下文大小來了解 Transformer 快速演變的另一個方面。
Transformer 模型的基石在於注意力子層,反過來,注意力子層的關鍵屬性是用來處理上下文大小的方法,上下文大小是人類和機器學習語言的主要方式之一,上下文大小越大,我們就越能理解序列,然而,分析長期依賴關係所採取的路徑需要從循環層改為注意力層,比方說,下面的句子需要很長的耐心才能找到代名詞「it」所指的內容:“Our house was too small to fit a big couch, a large table, and other furniture we would have liked in such a tiny space. We thought about staying for some time, but finally, we decided to sell it.”
Vaswani 等人於 2017 年優化了原始 Transformer 模型中上下文分析的設計,注意力將操作簡化為一對一的 Token 操作,所有層都是相同的,使得擴大 Transformer 模型的尺寸變得更加容易,Transformer 靈活且最佳化的架構導致了其他幾個影響: