強化微調(Reinforcement Fine-Tuning)

更新於 2024/12/08閱讀時間約 2 分鐘

簡介


本文介紹一個研究其提出一種透過接收人類回饋來提高文字生成圖像品質的方法。眾所周知,人類回饋有助於提升文字到圖像生成模型的性能,但傳統方法首先需要學習一個獎勵函數(reward function)來擷取和表達人類的期望,然後根據該獎勵函數改進模型。然而,雖然已使用了基於獎勵分數的簡單拒絕取樣等方法,但生成模型的微調仍然存在挑戰。

提出使用線上強化學習(online reinforcement learning)來微調文字到圖像生成模型。特別關注擴散模型(diffusion models),並將微調任務形式化為強化學習問題。通過使用策略梯度法(policy gradient)最大化基於回饋學習的獎勵來更新預訓練模型。

創新點

提出使用線上強化學習來微調文字到圖像生成模型的方法。提出的方法稱為DPOK(Diffusion POlicy KL regulation),整合了策略最佳化和KL最佳化。將文字到圖像生成模型的微調任務形式化為強化學習問題。提出使用策略梯度法,基於人類回饋的獎勵函數來更新模型的方法。

raw-image


研究結果

根據該研究的實驗與分析,期強化學習微調和監督式微調的KL正規化效果,在圖像和文字的匹配度以及圖像品質方面都優於監督式微調。


可能的應用

OpenAI 宣布了強化微調,使得僅用少量訓練數據就能非常輕鬆地創建特定領域的專家模型。


Reference

  1. https://openai.com/form/rft-research-program/
  2. https://openreview.net/pdf?id=8OTPepXzeh


avatar-img
0會員
31內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
在這篇文章中,我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力,我們可以生成更為精確的回答。
檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種提高生成式AI回答精確度的方法,本文簡要總結了RAG的相關內容。
人工智慧/機器學習(AI/ML)技術及相關應用已經成功地進入各種不同的產業。這些技術現在正應用於電信行動網路,AI/ML技術在改善系統性能、提高效率、增強終端用戶體驗方面創造更多商業價值,同時為5G和下世代行動網路創造新的商業模式。
ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。
一個好的機器學習模型通常需要大量樣本進行訓練。相比之下,人類學習新概念和技能要快得多,也更有效率。例如:小孩子只需見過幾次貓和鳥就能很快分辨它們。會騎自行車的人很可能在很少甚至沒有示範的情況下就能發現騎摩托車的方法。這樣的生活經驗讓大家想到是否有可能設計一個具有類似特性的機器學習模型: 元學習
在這篇文章中,我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力,我們可以生成更為精確的回答。
檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種提高生成式AI回答精確度的方法,本文簡要總結了RAG的相關內容。
人工智慧/機器學習(AI/ML)技術及相關應用已經成功地進入各種不同的產業。這些技術現在正應用於電信行動網路,AI/ML技術在改善系統性能、提高效率、增強終端用戶體驗方面創造更多商業價值,同時為5G和下世代行動網路創造新的商業模式。
ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。
一個好的機器學習模型通常需要大量樣本進行訓練。相比之下,人類學習新概念和技能要快得多,也更有效率。例如:小孩子只需見過幾次貓和鳥就能很快分辨它們。會騎自行車的人很可能在很少甚至沒有示範的情況下就能發現騎摩托車的方法。這樣的生活經驗讓大家想到是否有可能設計一個具有類似特性的機器學習模型: 元學習
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
介紹不同的渲染技術和軟體應用,包括戲劇性對比度、虛幻引擎、OC渲染、建築渲染、V射線、3D渲染、PBR等,讓您深入瞭解這些技術對於創造視覺吸引力和真實感的重要性。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
Thumbnail
當您需要對圖片進行優化調整,提升圖像質量時,您可能需要用到圖像增強軟體。一般來說圖片增強軟體會對您的圖像質量進行提升,有的時候您甚至能奇蹟般地獲得一張特別出彩的照片,因為部分圖片增強軟體融入了先進的人工智慧圖形改進技術,但前提是您選擇正確的圖片增強器。快使用圖像增強軟體實現照片編輯的魔力,完成前所未
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
介紹不同的渲染技術和軟體應用,包括戲劇性對比度、虛幻引擎、OC渲染、建築渲染、V射線、3D渲染、PBR等,讓您深入瞭解這些技術對於創造視覺吸引力和真實感的重要性。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
前篇測試如何把提示詞生成的圖像細節提高,這篇要測試的工作流是把任意圖像載入後經由放大模型放大,同時測試放大後重繪看看效果如何。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
Thumbnail
當您需要對圖片進行優化調整,提升圖像質量時,您可能需要用到圖像增強軟體。一般來說圖片增強軟體會對您的圖像質量進行提升,有的時候您甚至能奇蹟般地獲得一張特別出彩的照片,因為部分圖片增強軟體融入了先進的人工智慧圖形改進技術,但前提是您選擇正確的圖片增強器。快使用圖像增強軟體實現照片編輯的魔力,完成前所未