AI影像論文(02):ControlCom影像合成模型-論文筆記整理

閱讀時間約 8 分鐘

AI影像論文(02):ControlCom影像合成模型-論文筆記整理

raw-image

根據「影像合成是如何實現的?」我對於其中的ControlCom非常感興趣,在上篇Survey論文中提到ControlCom為一個object-to-object模型。該模型的特色在於提供整體與局部的圖像融合。

🌟簡介

研究團隊將四項任務整合入一個diffusion模型,這四樣任務分別是Blendingm(混合), Harmonization(調和), View Synthesis(視角合成), Composition(組合),以下針對這四種技術去做一個基本的介紹:

🎈Blendingm(混合):主要用於將兩個或多個影像部分結合成一個無縫且協調的整體。而混合的關鍵是要確保在交界處的顏色和亮度能夠平滑過渡,從而達到自然的視覺效果。
🎈Harmonization (調和):調和技術用於調整一個或多個影像元素的風格、顏色、照明等,以使其更好地融入背景中。
🎈View Synthesis (視角合成):視角合成是指從已有的影像中創建新視角的影像的技術。通過分析多個視角的影像,可以合成新的視點影像,提供更多的視角覆蓋。
🎈Composition (組合):組合技術涉及將多個圖像元素或層合成為一個統一的圖像。合不僅涉及物理位置的安排,也包括光線、陰影和視覺效果的匹配,以創建出引人入勝的最終產品。

而此模型的目標在於通過選擇前景的元素屬性(ex.照明&姿勢)來實現圖像生成。而此模型採用自監督學習框架能夠同時在上方任務中進行訓練,從而提高生成圖像的品質和控制度。

🌟之前做法&相關研究

過去的方法大多是將圖像合成分解為多個任務,如圖像融合、圖像和諧化和視角合成,每個任務都旨在解決一個特定問題,但這些方法往往是繁瑣且不切實際的,因為需要依次應用多個模型。

近期的生成式圖像合成方法嘗試通過統一模型解決所有問題,這樣可以大大簡化合成流程。這些方法通常建立在預訓練的diffusion模型上,由於其在合成逼真圖像方面的出色能力,但它們仍面臨缺乏控制性和前景真實性低的問題。在控制性方面,diffusion模型通常以一種不可控的方式調整前景的所有屬性(例如照明和姿態)。而在真實性方面,雖然生成的前景與輸入前景屬於相同的語義類別,但一些外觀和紋理細節的顯著變化,並未滿足圖像合成的要求。

🌟方法

此模型的優勢在於提出了一種可控的圖像合成方法,通過條件擴散模型進行命名為 ControlCom,可以選擇性地調整部分前景屬性(即照明、姿態)。特別地,引入了一個二維指示向量來指示是否應更改前景的照明或姿態,並將該指示向量作為條件信息注入到擴散模型中。

🔍問題定義

raw-image

從上方的圖可以看到,此模型有四個輸入分別是背景圖片&二元遮罩&前景圖片&邊界框,其中的H&W為圖像的長跟寬。


另外上方提到ControlCom的優勢在於可以選擇性地調整部分前景屬性(即照明、姿態),因此我們需要引入一個向量來表示是否應該改變照明與姿態,在此向量中第一維度控制照明,第二維度控制姿態,其中值0(分別為1)表示維持(分別為改變)前景的相應屬性。有了這個指示器,我們可以選擇性地調整前景的照明和姿態,從而實現可控的圖像合成。


raw-image

🔨模型架構

此模型利用Stable-diffusion模型為基礎去建立可控生成器。首先下方是此模型之架構圖,接下來會分別下去解釋。

raw-image

(a)前景編碼器

raw-image

✅特徵提取


在前景編碼器中,研究團隊使用CLIP的ViT-L/14 image encoder來為圖片擷取特徵(224*224*3),而output資料為s 257 tokens以及1024 dimensions,其中包括 1 個類別 token 和 256 個補丁 tokens。類別 token 負責攜帶高層次的語義信息,而補丁 tokens 則包含局部細節。


✅全局嵌入


利用由 CLIP 編碼器最深層(第 25 層)產生的類別 token,通過多層感知器(MLP)生成全局嵌入 Eg(維度為 768),用於表示整體語義結構。


Global embedding(全局嵌入):將整個圖像或圖像的主要部分轉換成一個緊湊的數字表示形式,通常稱為特徵向量。這種嵌入捕捉了圖像的全局性質,例如整體結構、主要物體的類別、或者整體風格等高層次的語義信息。

✅局部嵌入


為了增豐富前景的細節信息,從較淺的層次(第 12 層)提取補丁 tokens 作為局部嵌入 El(維度為 256×1024)。這有助於捕捉前景的細節特徵,如外觀和紋理。


✅嵌入整合


將全局嵌入和局部嵌入整合進擴散模型的中間特徵中,生成具有豐富信息的表徵,從而使前景合成更加忠實和細緻。


(b)可控生成器

raw-image

首先再輸入的部分,為了使得能更輕鬆地適應任務,在模型中添加了背景圖像以及二進位遮罩以便於重建背景,另外前面提到了調整部分前景屬性(即照明、姿態)向量會在接下來提到的Unet輸入以及居部增強模組中使用。

接下來生成的部分分為兩階段:全局&局部

✅全局融合


通過全局融合模組融合全局嵌入先產生一個與背景場景一致的粗糙前景促體。


利用 U-Net 的交叉注意力。為了應對圖像合成,我們用前景的全局嵌入 Eg 替換文字嵌入,這會通過交叉注意力注入到 U-Net 的每個變換器塊中的中間表徵。

✅局部增強

raw-image

為了合成合成圖像中的前景物體,通過局部增強模組融合局部嵌入提供的外觀和紋理細節,促進高保真合成圖像的生成。通過融合局部嵌入 El,局部背景特徵 Fl̄i 能夠將 El 中的細微前景信息納入,生成與輸入更相似的前景物體。交叉注意力後,我們獲得注意力圖 A和合成的前景特徵圖 F̃li 。

接著為了進一步的去使用從局部嵌入 El 構建的對齊的前景嵌入圖來調節合成的前景特徵圖 F̃li。

注意力圖A成功捕捉了輸入前景與合成前景之間的空間對應。通過將A與前景特徵圖El相乘,並將這個結果轉換成2D空間結構,可以得到了一張對齊的前景嵌入圖Ẽl。在這張圖中,每個像素位置都包含了相應的上下文信息,這有助於進一步處理前景特徵F̃li。


為了精確調節這些前景特徵,接著在Ẽl上進行卷積操作,產生空間感知的縮放和移位調節係數(由convγ和convβ卷積層產生)。這些調節係數用於標準化的前景特徵F̃li,產生調整後的輸出特徵F̂li,其形狀與輸入特徵F̃li相同。
raw-image
最後,為了與全局背景特徵Fi融合,接著調整F̂li的尺寸,並將其添加到Fi中的特定區域,從而產生增強特徵F̃i。這些增強特徵包含了前景的外觀和紋理細節,進一步提高了合成圖像的真實感和質量。

🔨數據準備&自監督學習框架

由於缺乏可以同時訓練四項任務的數據集,這篇論文提出了一個自監督學習框架,並結合了合成數據準備流程來學習這四個任務。

主要是從大規模數據集中收集合成訓練數據(Open Images)。首先過濾數據集,保留具有適當邊界框大小的物體(例如,框區域約為整個圖像面積的 2% 至 80%)。接著使用 SAM (Segment Anything)為沒有遮罩的物體預測實例遮罩。之後,給定原始圖像 Is 和圖像中的邊界框 Bs,並裁剪包含物體的邊界框作為前景圖像,接著遮蔽邊界框區域來創建背景圖像。

raw-image

使用隨機裁剪和照明增強來生成合成圖像的變體,稱為 Iuc。

raw-image

接著對於從同一來源圖像裁剪的前景圖像,首先進行背景替換,以將前景的非前景區域替換為其他背景,這可以防止模型學習到簡單的複製和粘貼。

raw-image

然後我們依次對前景進行照明增強和幾何增強,分別生成 Iuf 和 Igf。這一過程干擾了前景的照明和姿態,模擬了前景與背景照明/姿態不一致的實際場景。最後,我們將 Iuc 中的前景物體替換為 Iuf 中的物體,得到 Inc。

raw-image

🔨結果與結論

raw-image

可以看到模型的表現相較於其他模型皆有更自然的表現。另外下方是一些比較數據。

raw-image

而我認為此模型最大的價值會在於它的可操控性,以往AI生圖最令人詬病的問題就是生成出來的結果與使用者心中的想法不同,而此模型提供的操控性我認為能夠很好的解決這類型的問題。

raw-image




3會員
10內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
發表第一個留言支持創作者!
仁和的論文整理 的其他內容
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。 它透過點擊以下方式產生提示,使得生成過程更加直覺和簡單: 透過範例圖像點擊生成; 將提示按主題、風格和參數分類; 提供了大量的預設提示。
Thumbnail
近日,我們推出了全新的AI 反向影像搜尋功能,為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同,我們的反向影像搜尋利用AI 技術來理解影像背後的上下文,從而提供更準確的搜尋結果。快來試試看,告訴我們您的體驗!
Thumbnail
Microsoft Bing影像建立工具已經推出一段時間,之前看到不少實測文章,雖然可調整選項不多,應該說是幾乎沒有,但是產生的圖片品質不錯,也有1024*1024的解析度。這次來試用看看,用中文描述的產出結果,還不錯!
Thumbnail
融合了花、葉與公園長椅,以「秋天的記憶」為題的八張影像重疊創作作品,透過美圖秀秀APP 「AI 繪畫藝術」,會蛻變出怎樣風格的秋光奏鳴曲?
Thumbnail
透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版,美濃湖的橋樑、遠山、湖,美濃湖的橋樑、遠山、湖面,樹林都有了不同的風貌,連人物造型跟拿的包包都有了整套的搭配變化,最有趣的是附近的檳榔樹與遠山,也變成了聖誕樹林,連遠處的平房也有了不同的建築形式。
Thumbnail
透過美圖秀秀APP「AI 繪畫藝術」測試版,你會發現龍虎塔的塔,你會發現龍虎塔的塔型,變得更古色古香,有些還幻化成了日本建築風格,塔前的石橋被東方風格的街頭古燈所取代,潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階,與西式的建築與路燈,上面還被白雪覆蓋著,連塔邊的樹種,天際的背景也有了轉換,東
Thumbnail
每年各種APP都會推出各種免費的年節電子賀卡,有的免費有的要付費,耶誕節、台灣元旦新年、農曆過年與西洋情人節陸續將至,如果你有寄發電子賀卡的習慣,今年不妨試試以下推薦的新玩意--- 免費的「美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成」!
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。 它透過點擊以下方式產生提示,使得生成過程更加直覺和簡單: 透過範例圖像點擊生成; 將提示按主題、風格和參數分類; 提供了大量的預設提示。
Thumbnail
近日,我們推出了全新的AI 反向影像搜尋功能,為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同,我們的反向影像搜尋利用AI 技術來理解影像背後的上下文,從而提供更準確的搜尋結果。快來試試看,告訴我們您的體驗!
Thumbnail
Microsoft Bing影像建立工具已經推出一段時間,之前看到不少實測文章,雖然可調整選項不多,應該說是幾乎沒有,但是產生的圖片品質不錯,也有1024*1024的解析度。這次來試用看看,用中文描述的產出結果,還不錯!
Thumbnail
融合了花、葉與公園長椅,以「秋天的記憶」為題的八張影像重疊創作作品,透過美圖秀秀APP 「AI 繪畫藝術」,會蛻變出怎樣風格的秋光奏鳴曲?
Thumbnail
透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版,美濃湖的橋樑、遠山、湖,美濃湖的橋樑、遠山、湖面,樹林都有了不同的風貌,連人物造型跟拿的包包都有了整套的搭配變化,最有趣的是附近的檳榔樹與遠山,也變成了聖誕樹林,連遠處的平房也有了不同的建築形式。
Thumbnail
透過美圖秀秀APP「AI 繪畫藝術」測試版,你會發現龍虎塔的塔,你會發現龍虎塔的塔型,變得更古色古香,有些還幻化成了日本建築風格,塔前的石橋被東方風格的街頭古燈所取代,潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階,與西式的建築與路燈,上面還被白雪覆蓋著,連塔邊的樹種,天際的背景也有了轉換,東
Thumbnail
每年各種APP都會推出各種免費的年節電子賀卡,有的免費有的要付費,耶誕節、台灣元旦新年、農曆過年與西洋情人節陸續將至,如果你有寄發電子賀卡的習慣,今年不妨試試以下推薦的新玩意--- 免費的「美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成」!