本文介紹一個研究其提出一種透過接收人類回饋來提高文字生成圖像品質的方法。眾所周知,人類回饋有助於提升文字到圖像生成模型的性能,但傳統方法首先需要學習一個獎勵函數(reward function)來擷取和表達人類的期望,然後根據該獎勵函數改進模型。然而,雖然已使用了基於獎勵分數的簡單拒絕取樣等方法,但生成模型的微調仍然存在挑戰。
提出使用線上強化學習(online reinforcement learning)來微調文字到圖像生成模型。特別關注擴散模型(diffusion models),並將微調任務形式化為強化學習問題。通過使用策略梯度法(policy gradient)最大化基於回饋學習的獎勵來更新預訓練模型。
提出使用線上強化學習來微調文字到圖像生成模型的方法。提出的方法稱為DPOK(Diffusion POlicy KL regulation),整合了策略最佳化和KL最佳化。將文字到圖像生成模型的微調任務形式化為強化學習問題。提出使用策略梯度法,基於人類回饋的獎勵函數來更新模型的方法。
根據該研究的實驗與分析,期強化學習微調和監督式微調的KL正規化效果,在圖像和文字的匹配度以及圖像品質方面都優於監督式微調。
OpenAI 宣布了強化微調,使得僅用少量訓練數據就能非常輕鬆地創建特定領域的專家模型。