AI說書 - 從0開始 - 200 | OpenAI GPT 之參數量級變化

發佈於三分鐘學AI

2024/10/03 更新2024/10/03 發佈閱讀 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

ChatGPT 是涵蓋 GPT-3.5-turbo、GPT-4、GPT-4V 和未來可能的改進的總稱，架構的規模同時演進：

模型的層數從原始 Transformer 模型中的 6 層增加到 GPT-3 模型中的 96 層
每層的頭數從原始 Transformer 模型中的 8 個增加到 GPT-3 模型中的 96 個
上下文大小從原始 Transformer 模型中的 512 個 Token 變為 GPT-3 模型中的 12288 個 Token

該架構的尺寸解釋了為什麼擁有 96 層的 GPT-3 175B 比只有 40 層的 GPT-2 1542M 產生了更令人印象深刻的結果，兩個模型的參數相當，但層數增加了一倍，讓我們專注於上下文大小來了解 Transformer 快速演變的另一個方面。

Transformer 模型的基石在於注意力子層，反過來，注意力子層的關鍵屬性是用來處理上下文大小的方法，上下文大小是人類和機器學習語言的主要方式之一，上下文大小越大，我們就越能理解序列，然而，分析長期依賴關係所採取的路徑需要從循環層改為注意力層，比方說，下面的句子需要很長的耐心才能找到代名詞「it」所指的內容：“Our house was too small to fit a big couch, a large table, and other furniture we would have liked in such a tiny space. We thought about staying for some time, but finally, we decided to sell it.”

Vaswani 等人於 2017 年優化了原始 Transformer 模型中上下文分析的設計，注意力將操作簡化為一對一的 Token 操作，所有層都是相同的，使得擴大 Transformer 模型的尺寸變得更加容易，Transformer 靈活且最佳化的架構導致了其他幾個影響：

Vaswani 等人於 2017 年用 3600 萬個句子訓練了最先進的 Transformer 模型，Brown 等人於 2020 年使用從 Common Crawl 資料中提取的 4000 億 Byte-Pair-Encoded Token 訓練了 GPT-3 模型
訓練大型 Transformer 模型需要運算能力，而全球只有少數團隊可以使用這種運算能力，Brown 等人於 2020 年總共花了 2.14 * 10²³ FLOPS 訓練 GPT-3 175B
設計 Transformer 的架構需要高素質的團隊，而這些團隊只能由全球少數組織資助

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AIAI從0開始-第七章

留言

Learn AI 不 BI

248會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/10/24

AI說書 - 從0開始 - 223 | 第七章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 193 | 第七章引言到 AI說書 - 從0開始 - 222 | GPT 4 & RAG 測試，我們完成書籍：Transformers

2024/10/24

AI說書 - 從0開始 - 223 | 第七章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 193 | 第七章引言到 AI說書 - 從0開始 - 222 | GPT 4 & RAG 測試，我們完成書籍：Transformers

2024/10/23

AI說書 - 從0開始 - 222 | GPT 4 & RAG 測試

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：依賴的安裝：AI說書 - 從0開始 - 218 | OpenAI GPT 4 & RAG 關鍵字偵測：AI說書 - 從0開始 - 219 |

2024/10/23

AI說書 - 從0開始 - 222 | GPT 4 & RAG 測試

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：依賴的安裝：AI說書 - 從0開始 - 218 | OpenAI GPT 4 & RAG 關鍵字偵測：AI說書 - 從0開始 - 219 |

2024/10/22

AI說書 - 從0開始 - 221 | GPT 4 & RAG 實作

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：依賴的安裝：AI說書 - 從0開始 - 218 | OpenAI GPT 4 & RAG 關鍵字偵測：AI說書 - 從0開始 - 219 |

2024/10/22

AI說書 - 從0開始 - 221 | GPT 4 & RAG 實作

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧目前手上有的素材：依賴的安裝：AI說書 - 從0開始 - 218 | OpenAI GPT 4 & RAG 關鍵字偵測：AI說書 - 從0開始 - 219 |

你可能也想看

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜上篇】首波新成員登場！5 題靈魂拷問，直擊「個人主題專家」的創作後台🔥

vocus 最具指標性的創作者社群──「野格團」， 2026 年春季，這支充滿專業、熱情的團隊再次擴編，迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇，他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜上篇】首波新成員登場！5 題靈魂拷問，直擊「個人主題專家」的創作後台🔥

vocus 最具指標性的創作者社群──「野格團」， 2026 年春季，這支充滿專業、熱情的團隊再次擴編，迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇，他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。

#創作#創作者推薦#靈感

2026/03/25

Learn AI 不 BI

AI說書 - 從0開始 - 243 | 微調 GPT 模型與 GPT4 比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/10

Learn AI 不 BI

AI說書 - 從0開始 - 243 | 微調 GPT 模型與 GPT4 比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/10

Learn AI 不 BI

AI說書 - 從0開始 - 240 | 微調 GPT 模型之推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/07

Learn AI 不 BI

AI說書 - 從0開始 - 240 | 微調 GPT 模型之推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/07

Learn AI 不 BI

AI說書 - 從0開始 - 239 | 微調 GPT 模型之推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/06

Learn AI 不 BI

AI說書 - 從0開始 - 239 | 微調 GPT 模型之推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/06

Learn AI 不 BI

AI說書 - 從0開始 - 238 | 微調 GPT 模型之推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/05

Learn AI 不 BI

AI說書 - 從0開始 - 238 | 微調 GPT 模型之推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/11/05

Learn AI 不 BI

AI說書 - 從0開始 - 233 | 微調 GPT 模型的資料集檢查

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/10/31

Learn AI 不 BI

AI說書 - 從0開始 - 233 | 微調 GPT 模型的資料集檢查

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/10/31

Learn AI 不 BI

AI說書 - 從0開始 - 215 | OpenAI GPT 4 API

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們將開始使用 ChatGPT Plus 和 GPT-4 作為助手，您將看到尖端開發人員如何利用 GPT-4 作為助手來縮短上市時間。這次我想請 GPT 4 幫

#AI#ai#PromptEngineering

2024/10/16

Learn AI 不 BI

AI說書 - 從0開始 - 215 | OpenAI GPT 4 API

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們將開始使用 ChatGPT Plus 和 GPT-4 作為助手，您將看到尖端開發人員如何利用 GPT-4 作為助手來縮短上市時間。這次我想請 GPT 4 幫

#AI#ai#PromptEngineering

2024/10/16

Learn AI 不 BI

AI說書 - 從0開始 - 214 | OpenAI GPT 4

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們將開始使用 ChatGPT Plus 和 GPT-4 作為助手，您將看到尖端開發人員如何利用 GPT-4 作為助手來縮短上市時間。比方說問 ChatGPT

#AI#ai#PromptEngineering

2024/10/15

Learn AI 不 BI

AI說書 - 從0開始 - 214 | OpenAI GPT 4

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們將開始使用 ChatGPT Plus 和 GPT-4 作為助手，您將看到尖端開發人員如何利用 GPT-4 作為助手來縮短上市時間。比方說問 ChatGPT

#AI#ai#PromptEngineering

2024/10/15

Learn AI 不 BI

AI說書 - 從0開始 - 213 | OpenAI GPT 4

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們將開始使用 ChatGPT Plus 和 GPT-4 作為助手，您將看到尖端開發人員如何利用 GPT-4 作為助手來縮短上市時間。比方說問 ChatGPT

#AI#ai#PromptEngineering

2024/10/14

Learn AI 不 BI

AI說書 - 從0開始 - 213 | OpenAI GPT 4

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們將開始使用 ChatGPT Plus 和 GPT-4 作為助手，您將看到尖端開發人員如何利用 GPT-4 作為助手來縮短上市時間。比方說問 ChatGPT

#AI#ai#PromptEngineering

2024/10/14

Learn AI 不 BI

AI說書 - 從0開始 - 206 | OpenAI ChatGPT 使用

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。生成式 AI 和 GPT 助手將滲透到日常應用中，從軟體開發的角度來看，未來將與過去大不相同，類似 ChatGPT 的模型將大大提高日常軟體開發的生產力，我們將釋放 G

#AI#ai#PromptEngineering

2024/10/08

Learn AI 不 BI

AI說書 - 從0開始 - 206 | OpenAI ChatGPT 使用

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。生成式 AI 和 GPT 助手將滲透到日常應用中，從軟體開發的角度來看，未來將與過去大不相同，類似 ChatGPT 的模型將大大提高日常軟體開發的生產力，我們將釋放 G

#AI#ai#PromptEngineering

2024/10/08

Learn AI 不 BI

AI說書 - 從0開始 - 199 | OpenAI GPT 之參數量級變化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。光從 2017 年到 2020 年，參數數量就從原始 Transformer 模型中的 65M 個參數增加到 GPT-3 模型中的 175B 個參數，統計如下表所示：

#AI#ai#PromptEngineering

2024/10/02

Learn AI 不 BI

AI說書 - 從0開始 - 199 | OpenAI GPT 之參數量級變化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。光從 2017 年到 2020 年，參數數量就從原始 Transformer 模型中的 65M 個參數增加到 GPT-3 模型中的 175B 個參數，統計如下表所示：

#AI#ai#PromptEngineering

2024/10/02

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News