AI影像論文(08):MureObjectStitch影像合成模型-論文筆記整理

更新於 發佈於 閱讀時間約 5 分鐘
raw-image

過去我們介紹過像是「ControlCom影像合成模型」以及其他許多的影像合成模型,這次開發 ControlCom 的團隊在 11 月中發表了一個基於 ObjectStitch 進行 Fine tune 的模型 MureObjectStitch,今天就來看看 MureObjectStitch的 Fine tune 策略以及表現!

📌簡介

  1. 多參考微調策略:該模型允許模型使用多張包含相同前景物件的圖像進行訓練。通過結合微調和多參考策略,MureObjectStitch 可以更好地學習前景物件的不同姿態和視角,並生成更逼真的合成圖像。
  2. 提升高真實性合成方法的細節保留能力:實驗結果顯示,將多參考微調策略應用於高真實性方法 ObjectStitch 後,模型在保留細節方面的能力顯著提高。 MureObjectStitch 能夠在調整前景物件光照和幾何形狀的同時,更好地保留前景物件的細節,生成高品質的合成圖像。

📌方法

前面簡介一直提到多參考微調策略,那具體什麼是多參考微調策略呢?

所謂的多參考微調策略指的是允許模型在訓練過程中輸入多張前景物件的參考圖像。像是下圖這樣~

48

48

raw-image

研究團隊連接了多個視角的輸入(包括全局特徵和局部特徵),這些特徵通過交叉注意力機制注入到去噪 UNet 中。

  1. 全局特徵:全局特徵描述整幅圖像的整體屬性,常見的全局特徵包括:顏色特徵 & 紋理特徵 & 形狀特徵
  2. 局部特徵:局部特徵關注圖像中的局部區域,能夠在複雜場景中提供更強的魯棒性。EX.特徵點 & 特徵描述子
特徵點:如角點、邊緣點,這些點在圖像中具有獨特性。
特徵描述子:如SIFT、SURF等算法,對特徵點周圍的區域進行描述,便於匹配和識別。

📌資料集

該論文使用了一個叫做 MureCom 的資料集:

資料集包含 32 個前景類別,例如動物、人物、車輛等。
每個前景類別有 20 張背景圖像,每張背景圖像都有一個手動標記的邊界框,用於放置對應類別的前景物件。
每個前景類別有 3 個獨特的前景物件,每個物件有 5 張不同角度或姿態的圖像。

📌實驗

研究人員使用每個前景物件的 5 張圖像對模型進行微調。微調的目標是讓模型學習如何將特定前景物件與不同背景融合。過程通常進行 150 個 epochs,大約需要 15 分鐘(使用 A6000 GPU 卡)。有些情況下,微調更多 epochs (例如 200 個) 可以保留更多細節,但可能導致內容失真或照明問題。

raw-image

結果顯示,MureObjectStitch 可以生成很不錯的合成圖像,前景物件與背景和其他物件自然地交互。

📌如何用?

raw-image

若你想用自己的資料集來進行 finetune你需要前景影像&背景影像&遮罩影像,而這些資料需要滿足以下條件的資料。包含了:

  • 前景物體需完全填滿影像的長和寬邊界。
  • 分割出前景物體以生成邊界框(bounding box)。
  • 移除前景物體後,生成相應的背景影像。

接著進行微調,需要運行以下命令啟動微調:

python main.py \

--logdir experiments/objectstitch \

--name='custom_finetune' \

--num_workers 4 \

--devices 1 \

--batch_size 1 \

--num_nodes 1 \

--base configs/murecom.yaml \

--package_name='CustomObject' \

--fg_name='foreground1'
  • --logdir:指定保存微調過程中模型檢查點(checkpoints)的目錄。
  • --name:給此次微調設定名稱,用於區分不同任務。
  • --num_workers:設定數據加載時的工作線程數,根據硬體性能設置(通常設置為 4)。
  • --devices:指定使用的 GPU 。
  • --batch_size:每次訓練的數據批量大小,根據 GPU 記憶體調整。
  • --base:指定配置檔案,通常為 configs/murecom.yaml
  • --package_name--fg_name:定義微調過程中特定的前景物體標籤,便於結果管理。

微調默認進行 150 個 epoch。可以通過 TensorBoard 或模型輸出的日誌檔案,監控訓練損失值(loss)的下降趨勢和生成結果的改進。

留言
avatar-img
留言分享你的想法!
avatar-img
仁和的論文整理
3會員
11內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
仁和的論文整理的其他內容
2024/08/20
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
Thumbnail
2024/08/20
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
Thumbnail
2024/08/13
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
Thumbnail
2024/08/13
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
Thumbnail
2024/08/13
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
2024/08/13
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
本文淺顯地說明圖像生成式 AI 的原理:與文字生成有何不同,又是怎樣透過 Diffusion Model 反覆「修圖」,才能生成出清晰的圖片,逐步講解圖像生成的核心邏輯。旨在讓非技術背景的讀者也能快速理解這項 AI 關鍵技術,適合對 AI 應用有興趣但不熟悉原理的入門讀者閱讀。
Thumbnail
本文淺顯地說明圖像生成式 AI 的原理:與文字生成有何不同,又是怎樣透過 Diffusion Model 反覆「修圖」,才能生成出清晰的圖片,逐步講解圖像生成的核心邏輯。旨在讓非技術背景的讀者也能快速理解這項 AI 關鍵技術,適合對 AI 應用有興趣但不熟悉原理的入門讀者閱讀。
Thumbnail
在影像處理中,形態學操作是非常重要的一種技術,能夠幫助我們去除噪點、強化特徵、修復物體的形狀等。形態學操作的核心是「結構元素」(kernel),不同形狀的結構元素會產生不同的處理效果。本文將介紹如何使用不同形狀的結構元素來進行圖像處理,並結合實際程式範例和測試圖片來說明其效果。
Thumbnail
在影像處理中,形態學操作是非常重要的一種技術,能夠幫助我們去除噪點、強化特徵、修復物體的形狀等。形態學操作的核心是「結構元素」(kernel),不同形狀的結構元素會產生不同的處理效果。本文將介紹如何使用不同形狀的結構元素來進行圖像處理,並結合實際程式範例和測試圖片來說明其效果。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
微調(Fine tune)是深度學習中遷移學習的一種方法,其中預訓練模型的權重會在新數據上進行訓練。 本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】 將所有資料
Thumbnail
微調(Fine tune)是深度學習中遷移學習的一種方法,其中預訓練模型的權重會在新數據上進行訓練。 本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】 將所有資料
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News