我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
2020 年 Brown 等人描述了 OpenAI GPT-3 模型的訓練,該模型包含 1750 億個參數,該模型是在巨大的資料集上訓練的,例如從 Common Crawl 資料中提取的 4000 億個位元組對,OpenAI 在具有 285000 個 CPU 和 10000 個 GPU 的 Microsoft Azure 超級電腦上執行訓練。
OpenAI 的 GPT-3 模型及其超級電腦的機器智慧引領 Brown 等人於 2020 進行零樣本實驗,這個想法是使用經過訓練的模型來執行下游任務,而無需進一步訓練參數,我們的目標是讓經過訓練的模型能夠透過 API 直接進入多任務生產,甚至可以執行未經訓練的任務。
超人類雲端人工智慧模式的時代誕生了,OpenAI 的 API 不需要高階軟體技能或人工智慧知識,你可能想知道為什麼我使用“超人類”這個詞,GPT-3 和 GPT-4 模型(以及即將推出的更強大的模型)在許多情況下可以執行許多任務,至少與人類一樣好,目前,有必要了解 GPT 模型是如何建構和運作的,才能領略其中的魔力。
GPT-4 建構於 GPT-3 之上,而 GPT-3 又建構於 GPT-2 架構之上,然而,經過充分訓練的 GPT-3 Transformer 是一個基礎模型:
從 2017 年底到 2020 年上半年,Transformers 從訓練到微調,最後到零樣本模型,只花了不到三年的時間,下游多任務不會更新訓練好的模型參數,這為 NLP/NLU 任務開啟了新時代,Transformer 從針對 NLP 任務訓練的小型模型轉變為幾乎不需要微調的模型的速度是驚人的。