AI影像論文(08):MureObjectStitch影像合成模型-論文筆記整理

更新於 發佈於 閱讀時間約 5 分鐘
raw-image

過去我們介紹過像是「ControlCom影像合成模型」以及其他許多的影像合成模型,這次開發 ControlCom 的團隊在 11 月中發表了一個基於 ObjectStitch 進行 Fine tune 的模型 MureObjectStitch,今天就來看看 MureObjectStitch的 Fine tune 策略以及表現!

📌簡介

  1. 多參考微調策略:該模型允許模型使用多張包含相同前景物件的圖像進行訓練。通過結合微調和多參考策略,MureObjectStitch 可以更好地學習前景物件的不同姿態和視角,並生成更逼真的合成圖像。
  2. 提升高真實性合成方法的細節保留能力:實驗結果顯示,將多參考微調策略應用於高真實性方法 ObjectStitch 後,模型在保留細節方面的能力顯著提高。 MureObjectStitch 能夠在調整前景物件光照和幾何形狀的同時,更好地保留前景物件的細節,生成高品質的合成圖像。

📌方法

前面簡介一直提到多參考微調策略,那具體什麼是多參考微調策略呢?

所謂的多參考微調策略指的是允許模型在訓練過程中輸入多張前景物件的參考圖像。像是下圖這樣~

48

48

raw-image

研究團隊連接了多個視角的輸入(包括全局特徵和局部特徵),這些特徵通過交叉注意力機制注入到去噪 UNet 中。

  1. 全局特徵:全局特徵描述整幅圖像的整體屬性,常見的全局特徵包括:顏色特徵 & 紋理特徵 & 形狀特徵
  2. 局部特徵:局部特徵關注圖像中的局部區域,能夠在複雜場景中提供更強的魯棒性。EX.特徵點 & 特徵描述子
特徵點:如角點、邊緣點,這些點在圖像中具有獨特性。
特徵描述子:如SIFT、SURF等算法,對特徵點周圍的區域進行描述,便於匹配和識別。

📌資料集

該論文使用了一個叫做 MureCom 的資料集:

資料集包含 32 個前景類別,例如動物、人物、車輛等。
每個前景類別有 20 張背景圖像,每張背景圖像都有一個手動標記的邊界框,用於放置對應類別的前景物件。
每個前景類別有 3 個獨特的前景物件,每個物件有 5 張不同角度或姿態的圖像。

📌實驗

研究人員使用每個前景物件的 5 張圖像對模型進行微調。微調的目標是讓模型學習如何將特定前景物件與不同背景融合。過程通常進行 150 個 epochs,大約需要 15 分鐘(使用 A6000 GPU 卡)。有些情況下,微調更多 epochs (例如 200 個) 可以保留更多細節,但可能導致內容失真或照明問題。

raw-image

結果顯示,MureObjectStitch 可以生成很不錯的合成圖像,前景物件與背景和其他物件自然地交互。

📌如何用?

raw-image

若你想用自己的資料集來進行 finetune你需要前景影像&背景影像&遮罩影像,而這些資料需要滿足以下條件的資料。包含了:

  • 前景物體需完全填滿影像的長和寬邊界。
  • 分割出前景物體以生成邊界框(bounding box)。
  • 移除前景物體後,生成相應的背景影像。

接著進行微調,需要運行以下命令啟動微調:

python main.py \

--logdir experiments/objectstitch \

--name='custom_finetune' \

--num_workers 4 \

--devices 1 \

--batch_size 1 \

--num_nodes 1 \

--base configs/murecom.yaml \

--package_name='CustomObject' \

--fg_name='foreground1'
  • --logdir:指定保存微調過程中模型檢查點(checkpoints)的目錄。
  • --name:給此次微調設定名稱,用於區分不同任務。
  • --num_workers:設定數據加載時的工作線程數,根據硬體性能設置(通常設置為 4)。
  • --devices:指定使用的 GPU 。
  • --batch_size:每次訓練的數據批量大小,根據 GPU 記憶體調整。
  • --base:指定配置檔案,通常為 configs/murecom.yaml
  • --package_name--fg_name:定義微調過程中特定的前景物體標籤,便於結果管理。

微調默認進行 150 個 epoch。可以通過 TensorBoard 或模型輸出的日誌檔案,監控訓練損失值(loss)的下降趨勢和生成結果的改進。

avatar-img
3會員
11內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
仁和的論文整理 的其他內容
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
你可能也想看
Google News 追蹤
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
本篇文章參考 Youtube 影片(...真實模型推薦...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
本篇文章參考 Youtube 影片(...真實模型推薦...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。