強化微調(Reinforcement Fine-Tuning)

強化微調(Reinforcement Fine-Tuning)

更新於 發佈於 閱讀時間約 2 分鐘

簡介


本文介紹一個研究其提出一種透過接收人類回饋來提高文字生成圖像品質的方法。眾所周知,人類回饋有助於提升文字到圖像生成模型的性能,但傳統方法首先需要學習一個獎勵函數(reward function)來擷取和表達人類的期望,然後根據該獎勵函數改進模型。然而,雖然已使用了基於獎勵分數的簡單拒絕取樣等方法,但生成模型的微調仍然存在挑戰。

提出使用線上強化學習(online reinforcement learning)來微調文字到圖像生成模型。特別關注擴散模型(diffusion models),並將微調任務形式化為強化學習問題。通過使用策略梯度法(policy gradient)最大化基於回饋學習的獎勵來更新預訓練模型。

創新點

提出使用線上強化學習來微調文字到圖像生成模型的方法。提出的方法稱為DPOK(Diffusion POlicy KL regulation),整合了策略最佳化和KL最佳化。將文字到圖像生成模型的微調任務形式化為強化學習問題。提出使用策略梯度法,基於人類回饋的獎勵函數來更新模型的方法。

raw-image


研究結果

根據該研究的實驗與分析,期強化學習微調和監督式微調的KL正規化效果,在圖像和文字的匹配度以及圖像品質方面都優於監督式微調。


可能的應用

OpenAI 宣布了強化微調,使得僅用少量訓練數據就能非常輕鬆地創建特定領域的專家模型。


Reference

  1. https://openai.com/form/rft-research-program/
  2. https://openreview.net/pdf?id=8OTPepXzeh


avatar-img
Kiki的沙龍
1會員
40內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言
avatar-img
留言分享你的想法!
Kiki的沙龍 的其他內容
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!