Learn AI 不 BI

AI說書 - 從0開始 - 200 | OpenAI GPT 之參數量級變化

發佈於三分鐘學AI

更新於 2024/10/03發佈於 2024/10/03閱讀時間約 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

ChatGPT 是涵蓋 GPT-3.5-turbo、GPT-4、GPT-4V 和未來可能的改進的總稱，架構的規模同時演進：

模型的層數從原始 Transformer 模型中的 6 層增加到 GPT-3 模型中的 96 層
每層的頭數從原始 Transformer 模型中的 8 個增加到 GPT-3 模型中的 96 個
上下文大小從原始 Transformer 模型中的 512 個 Token 變為 GPT-3 模型中的 12288 個 Token

該架構的尺寸解釋了為什麼擁有 96 層的 GPT-3 175B 比只有 40 層的 GPT-2 1542M 產生了更令人印象深刻的結果，兩個模型的參數相當，但層數增加了一倍，讓我們專注於上下文大小來了解 Transformer 快速演變的另一個方面。

Transformer 模型的基石在於注意力子層，反過來，注意力子層的關鍵屬性是用來處理上下文大小的方法，上下文大小是人類和機器學習語言的主要方式之一，上下文大小越大，我們就越能理解序列，然而，分析長期依賴關係所採取的路徑需要從循環層改為注意力層，比方說，下面的句子需要很長的耐心才能找到代名詞「it」所指的內容：“Our house was too small to fit a big couch, a large table, and other furniture we would have liked in such a tiny space. We thought about staying for some time, but finally, we decided to sell it.”

Vaswani 等人於 2017 年優化了原始 Transformer 模型中上下文分析的設計，注意力將操作簡化為一對一的 Token 操作，所有層都是相同的，使得擴大 Transformer 模型的尺寸變得更加容易，Transformer 靈活且最佳化的架構導致了其他幾個影響：

Vaswani 等人於 2017 年用 3600 萬個句子訓練了最先進的 Transformer 模型，Brown 等人於 2020 年使用從 Common Crawl 資料中提取的 4000 億 Byte-Pair-Encoded Token 訓練了 GPT-3 模型
訓練大型 Transformer 模型需要運算能力，而全球只有少數團隊可以使用這種運算能力，Brown 等人於 2020 年總共花了 2.14 * 10²³ FLOPS 訓練 GPT-3 175B
設計 Transformer 的架構需要高素質的團隊，而這些團隊只能由全球少數組織資助

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AIAI從0開始-第七章

Learn AI 不 BI

200會員

515內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 199 | OpenAI GPT 之參數量級變化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。光從 2017 年到 2020 年，參數數量就從原始 Transformer 模型中的 65M 個參數增加到 GPT-3 模型中的 175B 個參數，統計如下表所示：

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 198 | OpenAI GPT 之架構引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 2020 年 Brown 等人描述了 OpenAI GPT-3 模型的訓練，該模型包含 1750 億個參數，該模型是在巨大的資料集上訓練的，例如從 Common Cra

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 197 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 194 | 第七章總覽中提到會用「改進」和「擴散」兩個面向來探討 OpenAI 模型，而在 AI說書 - 從0開始 - 195 | 第

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 196 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 194 | 第七章總覽中提到會用「改進」和「擴散」兩個面向來探討 OpenAI 模型，而在 AI說書 - 從0開始 - 195 | 第

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 195 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 194 | 第七章總覽中提到會用「改進」和「擴散」兩個面向來探討 OpenAI 模型，我們先探討「改進」的部分。本章的改進重點

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 194 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章涵蓋以下主題： General Purpose Technologies (GPT) 模型做為通用技術的興起與傳播 OpenAI GPT 模型的架構從 Fe

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 199 | OpenAI GPT 之參數量級變化

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。光從 2017 年到 2020 年，參數數量就從原始 Transformer 模型中的 65M 個參數增加到 GPT-3 模型中的 175B 個參數，統計如下表所示：

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 198 | OpenAI GPT 之架構引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 2020 年 Brown 等人描述了 OpenAI GPT-3 模型的訓練，該模型包含 1750 億個參數，該模型是在巨大的資料集上訓練的，例如從 Common Cra

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 197 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 194 | 第七章總覽中提到會用「改進」和「擴散」兩個面向來探討 OpenAI 模型，而在 AI說書 - 從0開始 - 195 | 第

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 196 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 194 | 第七章總覽中提到會用「改進」和「擴散」兩個面向來探討 OpenAI 模型，而在 AI說書 - 從0開始 - 195 | 第

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 195 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 194 | 第七章總覽中提到會用「改進」和「擴散」兩個面向來探討 OpenAI 模型，我們先探討「改進」的部分。本章的改進重點

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 194 | 第七章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章涵蓋以下主題： General Purpose Technologies (GPT) 模型做為通用技術的興起與傳播 OpenAI GPT 模型的架構從 Fe

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

Learn AI 不 BI

AI說書 - 從0開始 - 81

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續xxxx，ChatGPT 產生的程式，我們將它匯入 Colab 執行看看 ( Colab 使用教學見使用Meta釋出的模型，實作Chat GPT - Part 0

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 80

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx ，ChatGPT 除了產生程式周邊的文字描述，事實上它還會回覆程式語法的指令 : !pip install scikit-learn import nu

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 75

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 74 中提到，我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。有鑑於此，我們以句子「

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 74

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 ChatGPT 在 2022 年底和 2023 年初突然成為主流，震驚了世界，數以千計的任務被提交給這個令人難以置信的生成式人工智慧模型，帶有 GPT-4 的 Chat

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 32

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要操作ChatGPT，我們可以參考OpenAI的範例： https://platform.openai.com/examples/default-sql-trans

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 24

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 23示範了ChatGPT回答的能力，現在我們來看看ChatGPT撰寫程式的能力。嘗試問以下問題：Write a detailed

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 4

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 2，ChatGPT的根基是一種名為Transformer的Foundation Model，而Transformer依據AI說書 - 從

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 3

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 2，ChatGPT的根基是一種名為Transformer的Foundation Model，我們從Transformer的時間複雜度開始

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 1

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 0，我們從Transformer開始談起： ChatGPT的火紅使得Transformer架構也跟著成為主流，相關應用從Googl

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 81

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續xxxx，ChatGPT 產生的程式，我們將它匯入 Colab 執行看看 ( Colab 使用教學見使用Meta釋出的模型，實作Chat GPT - Part 0

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 80

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx ，ChatGPT 除了產生程式周邊的文字描述，事實上它還會回覆程式語法的指令 : !pip install scikit-learn import nu

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 75

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 74 中提到，我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。有鑑於此，我們以句子「

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 74

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 ChatGPT 在 2022 年底和 2023 年初突然成為主流，震驚了世界，數以千計的任務被提交給這個令人難以置信的生成式人工智慧模型，帶有 GPT-4 的 Chat

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 32

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要操作ChatGPT，我們可以參考OpenAI的範例： https://platform.openai.com/examples/default-sql-trans

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 24

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 23示範了ChatGPT回答的能力，現在我們來看看ChatGPT撰寫程式的能力。嘗試問以下問題：Write a detailed

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 4

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 2，ChatGPT的根基是一種名為Transformer的Foundation Model，而Transformer依據AI說書 - 從

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 3

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 2，ChatGPT的根基是一種名為Transformer的Foundation Model，我們從Transformer的時間複雜度開始

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 1

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 0，我們從Transformer開始談起： ChatGPT的火紅使得Transformer架構也跟著成為主流，相關應用從Googl

#AI #ai #PromptEngineering