2024-10-03|閱讀時間 ‧ 約 0 分鐘

AI說書 - 從0開始 - 200 | OpenAI GPT 之參數量級變化

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


ChatGPT 是涵蓋 GPT-3.5-turbo、GPT-4、GPT-4V 和未來可能的改進的總稱,架構的規模同時演進:

  • 模型的層數從原始 Transformer 模型中的 6 層增加到 GPT-3 模型中的 96 層
  • 每層的頭數從原始 Transformer 模型中的 8 個增加到 GPT-3 模型中的 96 個
  • 上下文大小從原始 Transformer 模型中的 512 個 Token 變為 GPT-3 模型中的 12288 個 Token


該架構的尺寸解釋了為什麼擁有 96 層的 GPT-3 175B 比只有 40 層的 GPT-2 1542M 產生了更令人印象深刻的結果,兩個模型的參數相當,但層數增加了一倍,讓我們專注於上下文大小來了解 Transformer 快速演變的另一個方面。


Transformer 模型的基石在於注意力子層,反過來,注意力子層的關鍵屬性是用來處理上下文大小的方法,上下文大小是人類和機器學習語言的主要方式之一,上下文大小越大,我們就越能理解序列,然而,分析長期依賴關係所採取的路徑需要從循環層改為注意力層,比方說,下面的句子需要很長的耐心才能找到代名詞「it」所指的內容:“Our house was too small to fit a big couch, a large table, and other furniture we would have liked in such a tiny space. We thought about staying for some time, but finally, we decided to sell it.”


Vaswani 等人於 2017 年優化了原始 Transformer 模型中上下文分析的設計,注意力將操作簡化為一對一的 Token 操作,所有層都是相同的,使得擴大 Transformer 模型的尺寸變得更加容易,Transformer 靈活且最佳化的架構導致了其他幾個影響:

  • Vaswani 等人於 2017 年用 3600 萬個句子訓練了最先進的 Transformer 模型,Brown 等人於 2020 年使用從 Common Crawl 資料中提取的 4000 億 Byte-Pair-Encoded Token 訓練了 GPT-3 模型
  • 訓練大型 Transformer 模型需要運算能力,而全球只有少數團隊可以使用這種運算能力,Brown 等人於 2020 年總共花了 2.14 * 1023 FLOPS 訓練 GPT-3 175B
  • 設計 Transformer 的架構需要高素質的團隊,而這些團隊只能由全球少數組織資助
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.