AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

仁和黃

更新於 2024/08/20發佈於 2024/08/20閱讀時間約 6 分鐘

上次我們介紹了「ControlCom影像合成模型」在實作時發現在我們的測試中還是有許多不合理的部分，像是我們僅僅單純是將一瓶原翠合成在一個簡單的平面上，但是在包裝的還原上非常差，可以看到下圖。

因此我們的方向目前想要去更改重新訓練一個我們自己的模型，所以又開始了文獻探討的工作，這邊因為我們對於ControlCom的架構其實評價還不錯，因此開始查找相關論文看到了這篇IMPRINT或許對於我們的目標是個不錯的參考~

📌簡介

這篇論文主要是由Adobe的研究團隊於2024年3月15日發表，該模型為一個基於Diffusion模型生成模型，特點在於它的Two Stage學習框架，具體是怎麼做的呢?我們先來看他的架構圖。

左邊的話是Stage 1它的作用在於利用不同角度的輸入圖來對訓練資料做增強，這樣子的好處是可以更有效地捕捉物體的特徵，並為後續的合成階段奠定基礎。而右邊的Stage 2主要是圖像合成的部分，將整個圖像合成至整個圖像。

📌方法

方法的部分我們持續針對上方提到的Stage 1以及Stage 2去進行深入的探討。

🎨Stage 1 (Context-Agnostic ID-preserving Stage)

作者們的靈感來源源自於目前的許多研究都有支持幾何和諧傾向於展現複製粘貼，另外在物體特徵的保留與圖像合成之間存在著一個根本的權衡，物體會在顏色、光影以及形狀上有所改變以更好的融入背景。而同時，物體的原始姿勢、色調和照明效果則會被模型記住並定義其外觀。

雖然多重視角可以在保留物體特徵上有重要的表現但是這樣子的資料集通常成本高昂並且資料品質不夠好(Ex.沒有背景...)因此作者們透過Stage 1給定一個物品兩個視角以及它們的遮罩。

Stage 1模型

Image Encoder模型：此模型是使用由Meta開發之DINOv2模型，DINOv2可以從圖像中提取高品質的特徵界，另外在Text to Image模型T2I中間有個內容適配器，這個適配器參考了ObjectStitch論文中的方法。

這裡針對ObjectStitch論文中內容適配器的資訊做一個簡單的介紹，在論文中作者提到

「為了防止關鍵身份信息的丟失，我們使用圖像編碼器而非文本編碼器，來從輸入的物體圖像生成嵌入。然而，圖像嵌入無法有效地被擴散模型利用」

這邊的原因有兩點：

圖像嵌入 E 和文本嵌入 E 來自不同的領域。由於擴散模型是在 E 上訓練的，因此它無法從圖像嵌入序列生成有意義的內容
E 的維度為 Rk×257×1024，而 E 的維度為 Rk×77×768，其中 k 是批次大小，兩者之間存在維度不匹配

那怎麼解決呢？他們使用兩個CLIP預訓練ViT-L/14 編碼器模型，分別生成圖像以及文本遷入的E，而在訓練過程中，適配器也作為數據增強的一部分來使用。另一個主要優勢是不需要手動標註，因為原始圖像用作真實值。使用邊界框作為遮罩，它不僅完全覆蓋了物體，還延伸到物體的鄰近區域（為陰影生成提供了空間）。作者發現這對模型應用空間變換、合成新視圖、生成陰影和反射非常靈活。

回到IMPRINT透過這個內容適配器通過彌合圖像和文本嵌入空間之間的領域差距，使得能夠利用預訓練的文本到圖像 (T2I) 模型。

Image Decoder模型：圖像的解碼器來自於Stable Diffusion模型中的conditional denoising autoencoder，並且它們在訓練過程中對解碼器進行了微調(fine tune)

這邊的損失函數目標在於最小化原始圖像以及生成圖像之間的差異，特別是針對原始物品的相關細節，可以看到[框框]中使用了預測的預測的噪音與解碼器(Decoder)生成的噪音之間來定義損失。在這個過程中，圖像編碼器 Eu 和解碼器塊 Gθ 會同時被優化，以確保模型在保持原始物品細節的同時，能夠從不同視角提取一致的表現。

這個模型的特點在於可以保留物體的細節並且不需要3d的資訊，所以不用像是用我們之前的作法是依靠相機拍攝等外部資訊。並且模型的重點放在保持物品的還原度而不是幾何的一致性。

🎨Stage 2(Compositing Stage)

上方這張圖為Stage 2的流程，此模型最主要的功能在於將圖片合成進背景圖，但經過作者的實驗若是忽略視角合成直接將編碼器和生成器在在同一個框架下共同訓練會造成兩者品質的下降，因此選擇凍結了模型的主要部分(DINOv2)也就是說encoder的權重不會改變，從而保持在Stage 1學到的能力以及穩定性。並且它們收集了一個全新的訓練集。

這邊的新的訓練集作者提到此資料集包含了豐富的背景，這樣的方法可以讓模型去學習豐富的光影以及幾何變化。而這資料集主要是來自Pixabay或是影像分割數據集(YoutubeVOS、VIPSeg 和 PPR10K)以及以物體為中心的數據集（MVImgNet和 Objaverse）這些數據集在我們的自監督訓練中被應用於不同的訓練階段，並結合了各種處理流程。

Stage 2模型

生成器模型：這裡使用T2I模型作為生成器的主幹。而模型的Input為背景圖以及要合成的粗略遮罩用來標記物體的位置，以及保持物體身份信息的代碼，由圖像編碼器生成，用於指示被遮罩的物體圖像。並將物體代碼注入到生成器的交叉注意力層中，這有助於模型在生成圖像時更好地保持物體的身份特徵（如形狀、姿態等）。而模型的目標函數如下：

其中可以看到此目標為最小化生成圖像與目標圖像之間的差異，而ϵ 代表隨機噪聲，M是遮罩，用來標記需要關注的區域。這個過程中，生成器 Gϕ 和適配器會根據損失函數進行優化。

在背景融合的部分，為了使得背景接合處平滑採用了背景融合策略。這意味著在物體與背景交界處進行特殊處理，以避免明顯的邊界或不連續性，從而提升合成效果。以及透過形狀引導的可控合成 (Shape-guided Controllable Compositing)的方式通過繪製粗略的遮罩來控制生成物體的姿態和視角，使生成過程更靈活、實際。

模型也引入了四種不同精度的遮罩，其中最粗略的是邊界框。這樣的設計模擬了真實場景中用戶的需求，尤其是當需要更精確地控制物體位置和形狀時。

📌成果展示

可以看到相較於其他的模型，IMPRINT模型融合得更加地自然，只是最可惜的是此模型沒有進行開源因此我們用不到，不過此架構方法對於我們在最圖像合成是非常有價值的!

📌參考資料

ObjectStitch: Object Compositing with Diffusion Model

IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation

留言

留言分享你的想法！

仁和的論文整理

3會員

11內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

仁和的論文整理的其他內容

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

本文介紹了MureObjectStitch，一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略，能夠在不同前景物件的影像中學習其不同姿態和視角，從而生成更真實的合成結果。法。

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

在過去的捐贈模式中，對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具，提供了有效且透明的捐贈過程。並且以Lokai品牌為例，展示瞭如何透過CHANGE平臺提升會員保留率，並加強企業與顧客之間的聯繫。

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

2024/08/13

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

探索41個讓你驚豔的AI影像生成模型論文

看更多

你可能也想看

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

孩子寫功課時瞇眼？小心近視！這款喜光全光譜TIONE⁺光健康智慧檯燈，獲眼科院長推薦，網路好評不斷！全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉，讓孩子學習更舒適、保護眼睛！

#方格新手#保護眼睛#閱讀

2025/06/21

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

#方格新手#保護眼睛#閱讀

2025/06/21

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

2025/06/23

2024/08/13

2024/08/13

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

#深度學習#AI#人工智慧

2024/07/23

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

本文章介紹了ControlCom影像合成模型的技術與架構，以及其與其他方法的比較。模型具有可控的圖像合成能力，並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構，以及數據準備和結果與結論。

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

本文介紹了影像合成任務及其歷史解決方案，包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法，並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。

#影像#AI#論文

2024/07/03

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

#影像#AI#論文

2024/07/03

EC3

AI 圖生圖、圖生文

上圖是根據彩色故事腳本生成的照片與草圖。運用圖生圖的原理，把AI視覺故事腳本的其中一個畫面。擷取出來。輸入重新繪製這張圖片 AI 會自然根據草圖，重新繪製元素一樣的精細畫面。

2024/06/07

2024/06/07

2024/03/21

2024/03/21

#12/100日更-firefly 提示詞模組化

以文字建立影像，有很多功能如下: 完成提示詞之後，選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格，Image2擬真人版風格，我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9，這個有別於目前AI生圖都是1:1版型，這可以依據您想要使

#firefly#AI生圖#唐詩

2024/02/24

學習分享的沙龍

#12/100日更-firefly 提示詞模組化

#firefly#AI生圖#唐詩

2024/02/24

Frank Plaza

ComfyUI 研究 - 影像合成

這篇介紹 Allor Plugin 的影像合成用節點。

#comfyui#StableDiffusion#AI繪圖

2024/02/18

Frank Plaza

ComfyUI 研究 - 影像合成

這篇介紹 Allor Plugin 的影像合成用節點。

#comfyui#StableDiffusion#AI繪圖

2024/02/18

創作邦｜設計X工具X品牌的沙龍

每週設計新聞分享｜2023.11.27-12.03

亞馬遜推出 AI 生成圖像工具 / reddit 更新品牌視覺 / 微軟小畫家加入 AI 圖像生成功能 / 中國第一起 AI 著作權判決案例 / Adobe 發布 DMV3D

2023/12/04

創作邦｜設計X工具X品牌的沙龍

每週設計新聞分享｜2023.11.27-12.03

亞馬遜推出 AI 生成圖像工具 / reddit 更新品牌視覺 / 微軟小畫家加入 AI 圖像生成功能 / 中國第一起 AI 著作權判決案例 / Adobe 發布 DMV3D

2023/12/04

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News