我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
光從 2017 年到 2020 年,參數數量就從原始 Transformer 模型中的 65M 個參數增加到 GPT-3 模型中的 175B 個參數,統計如下表所示:
有關 GPT-4 模型架構的資訊很少,OpenAI 尚未正式揭露 GPT-4 架構的細節,然而,他們對系統進行了優化,並在知名考試和評估中獲得了高分,如以下 GPT-4 技術報告 (2023 年 3 月 23 日,第 5 頁) 的摘錄所示: