強化微調（Reinforcement Fine-Tuning）

更新於 2024/12/08發佈於 2024/12/08閱讀時間約 2 分鐘

簡介

本文介紹一個研究其提出一種透過接收人類回饋來提高文字生成圖像品質的方法。眾所周知，人類回饋有助於提升文字到圖像生成模型的性能，但傳統方法首先需要學習一個獎勵函數（reward function）來擷取和表達人類的期望，然後根據該獎勵函數改進模型。然而，雖然已使用了基於獎勵分數的簡單拒絕取樣等方法，但生成模型的微調仍然存在挑戰。

提出使用線上強化學習（online reinforcement learning）來微調文字到圖像生成模型。特別關注擴散模型（diffusion models），並將微調任務形式化為強化學習問題。通過使用策略梯度法（policy gradient）最大化基於回饋學習的獎勵來更新預訓練模型。

創新點

提出使用線上強化學習來微調文字到圖像生成模型的方法。提出的方法稱為DPOK（Diffusion POlicy KL regulation），整合了策略最佳化和KL最佳化。將文字到圖像生成模型的微調任務形式化為強化學習問題。提出使用策略梯度法，基於人類回饋的獎勵函數來更新模型的方法。

研究結果

根據該研究的實驗與分析，期強化學習微調和監督式微調的KL正規化效果，在圖像和文字的匹配度以及圖像品質方面都優於監督式微調。

可能的應用

OpenAI 宣布了強化微調，使得僅用少量訓練數據就能非常輕鬆地創建特定領域的專家模型。

Reference

https://openai.com/form/rft-research-program/
https://openreview.net/pdf?id=8OTPepXzeh

1會員

38內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

留言

留言分享你的想法！

Kiki的沙龍的其他內容

使用GPT-4建構RAG系統

在這篇文章中，我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力，我們可以生成更為精確的回答。

#機器學習 #人工智慧 #生成

Graph RAG 簡介

檢索增強生成（RAG）在檢索特定資訊時有效，但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要（QFS）而非明確的資訊檢索。

#機器學習 #AI人工智慧 #人工智慧

RAG（Retrieval-Augmented Generation，檢索增強生成）

RAG（Retrieval-Augmented Generation，檢索增強生成）是一種提高生成式AI回答精確度的方法，本文簡要總結了RAG的相關內容。

#機器學習 #人工智慧 #AI人工智慧

人工智慧與電信網路

人工智慧/機器學習（AI/ML）技術及相關應用已經成功地進入各種不同的產業。這些技術現在正應用於電信行動網路，AI/ML技術在改善系統性能、提高效率、增強終端用戶體驗方面創造更多商業價值，同時為5G和下世代行動網路創造新的商業模式。

#人工智慧 #機器學習 #開放電信網路

大語言模型的安全風險

ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而，對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容，這些內容很有可能會對用戶造成傷害。

#人工智慧 #機器學習 #AI深度學習

元學習 - Meta-Learning

一個好的機器學習模型通常需要大量樣本進行訓練。相比之下，人類學習新概念和技能要快得多，也更有效率。例如:小孩子只需見過幾次貓和鳥就能很快分辨它們。會騎自行車的人很可能在很少甚至沒有示範的情況下就能發現騎摩托車的方法。這樣的生活經驗讓大家想到是否有可能設計一個具有類似特性的機器學習模型: 元學習

#人工智慧 #AI人工智慧 #AI深度學習

使用GPT-4建構RAG系統

在這篇文章中，我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力，我們可以生成更為精確的回答。

#機器學習 #人工智慧 #生成

Graph RAG 簡介

#機器學習 #AI人工智慧 #人工智慧

RAG（Retrieval-Augmented Generation，檢索增強生成）

RAG（Retrieval-Augmented Generation，檢索增強生成）是一種提高生成式AI回答精確度的方法，本文簡要總結了RAG的相關內容。

#人工智慧 #AI人工智慧 #AI深度學習

你可能也想看

Google News 追蹤

方格子 vocus 官方沙龍

2025/04/10

限時 9 折！精選投資理財沙龍推薦｜大盤動盪，知識進場

【vocus 精選投資理財/金融類沙龍，輸入 "moneyback" 年訂閱 9 折】市場動盪時，加碼永遠值得的投資標的——「自己」川普政府再度拋出關稅震撼彈，全球市場應聲重挫，從散戶到專業投資人，都急著找尋買進殺出的訊號，就是現在，輪到知識進場！把握時機讓自己升級，別放過反彈的機會！

#折扣碼 #方案 #投資

柔伊61 穿搭 . 美妝 . 分享生活

2025/04/01

提升氛圍感必不可少的單品！( mo店+ 、Bliss BKK )

就能get 同款韓系質感包👜 而且獨家下殺 299元up 讓它成為你的必備單品吧！ - momo優惠折扣碼領取超簡單❤️ 點擊右下角會員中心 - 折價券輸入 FLOWERMOMO 點擊歸戶就能領取商店優惠券啦！ - https://momo.dm/RaFNzR

#momo #穿搭 #時尚單品

姜廷蓉的沙龍

2025/04/01

mo店+ S999純銀四葉草項鍊：你的幸運守護神

momo店+ S999純銀四葉草項鍊，精緻細膩，代表愛情、希望、信念與幸運，是送給自己或別人的完美禮物。限時下殺299元起，超取免運！

#首飾 #項鍊 #穿搭

創作邦｜設計X工具X品牌的沙龍

2024/08/11

設計微調 VOL.17-排版概念分析

排版微系列調專門分享如何透過一些調整讓設計與排版更好看，並且每張設計都會說明為何調整的原因，以及原本設計可能有的問題。如果你是設計初學者那這份內容會很適合你，因為會很細節的去講解排版原因，如果你看完喜歡，我每月會有三篇微調詳解固定分享給訂閱會員，歡迎訂閱。

#排版 #設計 #海報

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion #AI繪圖 #插畫

介紹不同的渲染技術和軟體應用，包括戲劇性對比度、虛幻引擎、OC渲染、建築渲染、V射線、3D渲染、PBR等，讓您深入瞭解這些技術對於創造視覺吸引力和真實感的重要性。

前篇測試如何把提示詞生成的圖像細節提高，這篇要測試的工作流是把任意圖像載入後經由放大模型放大，同時測試放大後重繪看看效果如何。

#comfyui #StableDiffusion #AI繪圖

Frank Hsu的沙龍

2024/01/20

ComfyUI 研究 - 增加細節

先前藉由加入提示詞控制畫面內容與品質後，發現圖像放大後細節感覺糊糊的，這篇就要來測試幾個增加細節的方法，測試使用的工作流是基於A1111算法的工作流，且使用固定種子。

#comfyui #StableDiffusion #AI繪圖

田園檸檬的沙龍

2024/01/10

解鎖AI圖片增強的超強功能

當您需要對圖片進行優化調整，提升圖像質量時，您可能需要用到圖像增強軟體。一般來說圖片增強軟體會對您的圖像質量進行提升，有的時候您甚至能奇蹟般地獲得一張特別出彩的照片，因為部分圖片增強軟體融入了先進的人工智慧圖形改進技術，但前提是您選擇正確的圖片增強器。快使用圖像增強軟體實現照片編輯的魔力，完成前所未

#增強 #人工智慧 #軟體

方格子 vocus 官方沙龍

2025/04/10

限時 9 折！精選投資理財沙龍推薦｜大盤動盪，知識進場

#折扣碼 #方案 #投資

柔伊61 穿搭 . 美妝 . 分享生活

2025/04/01

提升氛圍感必不可少的單品！( mo店+ 、Bliss BKK )

#momo #穿搭 #時尚單品

姜廷蓉的沙龍

2025/04/01

mo店+ S999純銀四葉草項鍊：你的幸運守護神