我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們現在明白了 OpenAI 團隊專注於語言建模,因此,保留掩蔽注意力子層是合理的,Brown 等人於 2020 年顯著增大了僅包含解碼器的 Transformer 模型的規模,以獲得卓越的結果,GPT 模型具有與 Vaswani 等人於 2017 年設計的原始 Transformer 的解碼器堆疊相同的結構,我們曾在第二章中描述了這些解碼器堆疊。
GPT 模型具有僅解碼器架構,如下所示:
- OpenAI 團隊對每個解碼器模型進行了定制和調整,Radford 等人於 2019 年提出了不少於四個 GPT 模型,而 Brown 等人於 2020 年描述了不少於八個模型
- GPT-3 175B 模型達到了獨特的規模,所需的計算資源是世界上只有少數團隊能夠獲得的
- nparameters = 175B
- nlayers = 96
- dmodel = 12288
- nheads = 96
- OpenAI 正在不斷發展,新的模型不斷出現,而一些模型則逐漸被淘汰,有些模型會升級,API 接口也會進化,文檔會經歷多次更新,這對於一種通用技術來說是正常的,我們必須跟上這種快速變化的技術,幸運的是,OpenAI 提供了線上資源,讓我們了解他們模型的發展情況