AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

2024/07/03 更新2024/07/03 發佈閱讀 8 分鐘

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

根據「影像合成是如何實現的?」我對於其中的ControlCom非常感興趣，在上篇Survey論文中提到ControlCom為一個object-to-object模型。該模型的特色在於提供整體與局部的圖像融合。

🌟簡介

研究團隊將四項任務整合入一個diffusion模型，這四樣任務分別是Blendingm(混合), Harmonization(調和), View Synthesis(視角合成), Composition(組合)，以下針對這四種技術去做一個基本的介紹：

🎈Blendingm(混合)：主要用於將兩個或多個影像部分結合成一個無縫且協調的整體。而混合的關鍵是要確保在交界處的顏色和亮度能夠平滑過渡，從而達到自然的視覺效果。

🎈Harmonization (調和)：調和技術用於調整一個或多個影像元素的風格、顏色、照明等，以使其更好地融入背景中。

🎈View Synthesis (視角合成)：視角合成是指從已有的影像中創建新視角的影像的技術。通過分析多個視角的影像，可以合成新的視點影像，提供更多的視角覆蓋。

🎈Composition (組合)：組合技術涉及將多個圖像元素或層合成為一個統一的圖像。合不僅涉及物理位置的安排，也包括光線、陰影和視覺效果的匹配，以創建出引人入勝的最終產品。

而此模型的目標在於通過選擇前景的元素屬性(ex.照明&姿勢)來實現圖像生成。而此模型採用自監督學習框架能夠同時在上方任務中進行訓練，從而提高生成圖像的品質和控制度。

🌟之前做法&相關研究

過去的方法大多是將圖像合成分解為多個任務，如圖像融合、圖像和諧化和視角合成，每個任務都旨在解決一個特定問題，但這些方法往往是繁瑣且不切實際的，因為需要依次應用多個模型。

近期的生成式圖像合成方法嘗試通過統一模型解決所有問題，這樣可以大大簡化合成流程。這些方法通常建立在預訓練的diffusion模型上，由於其在合成逼真圖像方面的出色能力，但它們仍面臨缺乏控制性和前景真實性低的問題。在控制性方面，diffusion模型通常以一種不可控的方式調整前景的所有屬性（例如照明和姿態）。而在真實性方面，雖然生成的前景與輸入前景屬於相同的語義類別，但一些外觀和紋理細節的顯著變化，並未滿足圖像合成的要求。

🌟方法

此模型的優勢在於提出了一種可控的圖像合成方法，通過條件擴散模型進行命名為 ControlCom，可以選擇性地調整部分前景屬性（即照明、姿態）。特別地，引入了一個二維指示向量來指示是否應更改前景的照明或姿態，並將該指示向量作為條件信息注入到擴散模型中。

🔍問題定義

從上方的圖可以看到，此模型有四個輸入分別是背景圖片&二元遮罩&前景圖片&邊界框，其中的H&W為圖像的長跟寬。

另外上方提到ControlCom的優勢在於可以選擇性地調整部分前景屬性（即照明、姿態），因此我們需要引入一個向量來表示是否應該改變照明與姿態，在此向量中第一維度控制照明，第二維度控制姿態，其中值0（分別為1）表示維持（分別為改變）前景的相應屬性。有了這個指示器，我們可以選擇性地調整前景的照明和姿態，從而實現可控的圖像合成。

🔨模型架構

此模型利用Stable-diffusion模型為基礎去建立可控生成器。首先下方是此模型之架構圖，接下來會分別下去解釋。

(a)前景編碼器

✅特徵提取

在前景編碼器中，研究團隊使用CLIP的ViT-L/14 image encoder來為圖片擷取特徵(224*224*3)，而output資料為s 257 tokens以及1024 dimensions，其中包括 1 個類別 token 和 256 個補丁 tokens。類別 token 負責攜帶高層次的語義信息，而補丁 tokens 則包含局部細節。

✅全局嵌入

利用由 CLIP 編碼器最深層（第 25 層）產生的類別 token，通過多層感知器（MLP）生成全局嵌入 Eg（維度為 768），用於表示整體語義結構。

Global embedding（全局嵌入)：將整個圖像或圖像的主要部分轉換成一個緊湊的數字表示形式，通常稱為特徵向量。這種嵌入捕捉了圖像的全局性質，例如整體結構、主要物體的類別、或者整體風格等高層次的語義信息。

✅局部嵌入

為了增豐富前景的細節信息，從較淺的層次（第 12 層）提取補丁 tokens 作為局部嵌入 El（維度為 256×1024）。這有助於捕捉前景的細節特徵，如外觀和紋理。

✅嵌入整合

將全局嵌入和局部嵌入整合進擴散模型的中間特徵中，生成具有豐富信息的表徵，從而使前景合成更加忠實和細緻。

(b)可控生成器

首先再輸入的部分，為了使得能更輕鬆地適應任務，在模型中添加了背景圖像以及二進位遮罩以便於重建背景，另外前面提到了調整部分前景屬性（即照明、姿態）向量會在接下來提到的Unet輸入以及居部增強模組中使用。

接下來生成的部分分為兩階段：全局＆局部

✅全局融合

通過全局融合模組融合全局嵌入先產生一個與背景場景一致的粗糙前景促體。

利用 U-Net 的交叉注意力。為了應對圖像合成，我們用前景的全局嵌入 Eg 替換文字嵌入，這會通過交叉注意力注入到 U-Net 的每個變換器塊中的中間表徵。

✅局部增強

為了合成合成圖像中的前景物體，通過局部增強模組融合局部嵌入提供的外觀和紋理細節，促進高保真合成圖像的生成。通過融合局部嵌入 El，局部背景特徵 Fl̄i 能夠將 El 中的細微前景信息納入，生成與輸入更相似的前景物體。交叉注意力後，我們獲得注意力圖 A和合成的前景特徵圖 F̃li 。

接著為了進一步的去使用從局部嵌入 El 構建的對齊的前景嵌入圖來調節合成的前景特徵圖 F̃li。

注意力圖A成功捕捉了輸入前景與合成前景之間的空間對應。通過將A與前景特徵圖El相乘，並將這個結果轉換成2D空間結構，可以得到了一張對齊的前景嵌入圖Ẽl。在這張圖中，每個像素位置都包含了相應的上下文信息，這有助於進一步處理前景特徵F̃li。

為了精確調節這些前景特徵，接著在Ẽl上進行卷積操作，產生空間感知的縮放和移位調節係數（由convγ和convβ卷積層產生）。這些調節係數用於標準化的前景特徵F̃li，產生調整後的輸出特徵F̂li，其形狀與輸入特徵F̃li相同。

最後，為了與全局背景特徵Fi融合，接著調整F̂li的尺寸，並將其添加到Fi中的特定區域，從而產生增強特徵F̃i。這些增強特徵包含了前景的外觀和紋理細節，進一步提高了合成圖像的真實感和質量。

🔨數據準備&自監督學習框架

由於缺乏可以同時訓練四項任務的數據集，這篇論文提出了一個自監督學習框架，並結合了合成數據準備流程來學習這四個任務。

主要是從大規模數據集中收集合成訓練數據（Open Images）。首先過濾數據集，保留具有適當邊界框大小的物體（例如，框區域約為整個圖像面積的 2% 至 80%）。接著使用 SAM (Segment Anything)為沒有遮罩的物體預測實例遮罩。之後，給定原始圖像 Is 和圖像中的邊界框 Bs，並裁剪包含物體的邊界框作為前景圖像，接著遮蔽邊界框區域來創建背景圖像。

使用隨機裁剪和照明增強來生成合成圖像的變體，稱為 Iuc。

接著對於從同一來源圖像裁剪的前景圖像，首先進行背景替換，以將前景的非前景區域替換為其他背景，這可以防止模型學習到簡單的複製和粘貼。

然後我們依次對前景進行照明增強和幾何增強，分別生成 Iuf 和 Igf。這一過程干擾了前景的照明和姿態，模擬了前景與背景照明/姿態不一致的實際場景。最後，我們將 Iuc 中的前景物體替換為 Iuf 中的物體，得到 Inc。

🔨結果與結論

可以看到模型的表現相較於其他模型皆有更自然的表現。另外下方是一些比較數據。

而我認為此模型最大的價值會在於它的可操控性，以往AI生圖最令人詬病的問題就是生成出來的結果與使用者心中的想法不同，而此模型提供的操控性我認為能夠很好的解決這類型的問題。

留言

仁和的論文整理

5會員

11內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

仁和的論文整理的其他內容

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

本文介紹了MureObjectStitch，一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略，能夠在不同前景物件的影像中學習其不同姿態和視角，從而生成更真實的合成結果。法。

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

本文介紹了IMPRINT模型的架構與實作，該模型由Adobe研究團隊於2024年發表，採用Two Stage學習框架，並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值，儘管模型尚未開源，但其架構與方法對未來研究具有指導意義。

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

在過去的捐贈模式中，對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具，提供了有效且透明的捐贈過程。並且以Lokai品牌為例，展示瞭如何透過CHANGE平臺提升會員保留率，並加強企業與顧客之間的聯繫。

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

看更多

你可能也想看

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

本文章介紹了ControlCom影像合成模型的技術與架構，以及其與其他方法的比較。模型具有可控的圖像合成能力，並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構，以及數據準備和結果與結論。

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

本文介紹了影像合成任務及其歷史解決方案，包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法，並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。

#影像#AI#論文

2024/07/03

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

#影像#AI#論文

2024/07/03

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

這篇要用Controlnet去達成多人構圖的目標。

#comfyui#stablediffusion#AI繪圖

2024/03/23

Frank Plaza

ComfyUI 研究 - 多人構圖（三）

這篇要用Controlnet去達成多人構圖的目標。

#comfyui#stablediffusion#AI繪圖

2024/03/23

Frank Plaza

ComfyUI 研究 - 多人構圖（一）

AI生成圖片並非完全可控，所以需要很多額外手段去控制，這篇要來試試幾個方法讓生成的圖片更加可控。

#comfyui#stablediffusion#AI繪圖

2024/03/19

Frank Plaza

ComfyUI 研究 - 多人構圖（一）

AI生成圖片並非完全可控，所以需要很多額外手段去控制，這篇要來試試幾個方法讓生成的圖片更加可控。

#comfyui#stablediffusion#AI繪圖

2024/03/19

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

#深度學習#AI#人工智慧

2024/07/23

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11