2024-10-05|閱讀時間 ‧ 約 0 分鐘

AI說書 - 從0開始 - 202 | OpenAI GPT 設計動機

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


OpenAI 正在實現訓練模型並直接運行下游任務的目標,而無需進一步微調,這驚人的進步可以分為四個階段:

  • Fine-Tuning 的意思是我們在前面的章節中探討過的,訓練 Transformer 模型,然後針對下游任務進行微調,Radford 等人於 2018 年設計了許多微調任務,OpenAI 團隊隨後透過以下步驟逐步將任務數量減少到 0
  • Few-Shot 是一個重大進步,在 GPT 模型已經訓練完成後,當需要模型進行推理時,我們會提供一些範例來展示需要完成的任務,這些範例作為條件信息,取代了傳統的權重更新過程,這是 GPT 團隊故意排除的,我們將通過提供上下文來對模型進行條件設定
  • One-Shot 將這一過程進一步推進,訓練好的 GPT 模型只會被提供一個下游任務的範例,這過程中同樣不允許進行權重更新
  • Zero-Shot 是最終目標,訓練好的 GPT 模型在沒有任何下游任務範例的情況下進行推理


這些方法中的每一種都有不同程度的效率,OpenAI GPT 團隊努力製作這些最先進的 Transformer 模型,我們現在可以解釋 GPT 模型架構的動機:

  • 通過大量訓練教導 Transformer 模型如何學習一門語言
  • 專注於通過上下文條件設置進行語言建模
  • Transformer 以一種全新的方式利用上下文進行文本補全,它不再耗費資源去學習下游任務,而是專注於理解輸入並根據任何任務進行推理
  • 通過掩蔽輸入序列的一部分來尋找高效的模型訓練方法,迫使 Transformer 以機器智慧進行思考,因此,儘管機器智慧不是人類智慧,但它是高效的
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.