AI說書 - 從0開始 - 203 | OpenAI GPT Decoder 架構

2024/10/06 更新2024/10/06 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

我們現在明白了 OpenAI 團隊專注於語言建模，因此，保留掩蔽注意力子層是合理的，Brown 等人於 2020 年顯著增大了僅包含解碼器的 Transformer 模型的規模，以獲得卓越的結果，GPT 模型具有與 Vaswani 等人於 2017 年設計的原始 Transformer 的解碼器堆疊相同的結構，我們曾在第二章中描述了這些解碼器堆疊。

GPT 模型具有僅解碼器架構，如下所示：

OpenAI 團隊對每個解碼器模型進行了定制和調整，Radford 等人於 2019 年提出了不少於四個 GPT 模型，而 Brown 等人於 2020 年描述了不少於八個模型
GPT-3 175B 模型達到了獨特的規模，所需的計算資源是世界上只有少數團隊能夠獲得的
n_parameters = 175B
n_layers = 96
d_model = 12288
n_heads = 96
OpenAI 正在不斷發展，新的模型不斷出現，而一些模型則逐漸被淘汰，有些模型會升級，API 接口也會進化，文檔會經歷多次更新，這對於一種通用技術來說是正常的，我們必須跟上這種快速變化的技術，幸運的是，OpenAI 提供了線上資源，讓我們了解他們模型的發展情況