AI影像論文(07):IMPRINT影像合成模型-論文筆記整理

閱讀時間約 6 分鐘


raw-image

上次我們介紹了「ControlCom影像合成模型」在實作時發現在我們的測試中還是有許多不合理的部分,像是我們僅僅單純是將一瓶原翠合成在一個簡單的平面上,但是在包裝的還原上非常差,可以看到下圖。

raw-image

因此我們的方向目前想要去更改重新訓練一個我們自己的模型,所以又開始了文獻探討的工作,這邊因為我們對於ControlCom的架構其實評價還不錯,因此開始查找相關論文看到了這篇IMPRINT或許對於我們的目標是個不錯的參考~

📌簡介

這篇論文主要是由Adobe的研究團隊於2024年3月15日發表,該模型為一個基於Diffusion模型生成模型,特點在於它的Two Stage學習框架,具體是怎麼做的呢?我們先來看他的架構圖。

raw-image

左邊的話是Stage 1它的作用在於利用不同角度的輸入圖來對訓練資料做增強,這樣子的好處是可以更有效地捕捉物體的特徵,並為後續的合成階段奠定基礎。而右邊的Stage 2主要是圖像合成的部分,將整個圖像合成至整個圖像。

📌方法

方法的部分我們持續針對上方提到的Stage 1以及Stage 2去進行深入的探討。

🎨Stage 1 (Context-Agnostic ID-preserving Stage)

raw-image

作者們的靈感來源源自於目前的許多研究都有支持幾何和諧傾向於展現複製粘貼,另外在物體特徵的保留與圖像合成之間存在著一個根本的權衡,物體會在顏色、光影以及形狀上有所改變以更好的融入背景。而同時,物體的原始姿勢、色調和照明效果則會被模型記住並定義其外觀。

雖然多重視角可以在保留物體特徵上有重要的表現但是這樣子的資料集通常成本高昂並且資料品質不夠好(Ex.沒有背景...)因此作者們透過Stage 1給定一個物品兩個視角以及它們的遮罩。

Stage 1模型

Image Encoder模型:此模型是使用由Meta開發之DINOv2模型,DINOv2可以從圖像中提取高品質的特徵界,另外在Text to Image模型T2I中間有個內容適配器,這個適配器參考了ObjectStitch論文中的方法。

這裡針對ObjectStitch論文中內容適配器的資訊做一個簡單的介紹,在論文中作者提到

「為了防止關鍵身份信息的丟失,我們使用圖像編碼器而非文本編碼器,來從輸入的物體圖像生成嵌入。然而,圖像嵌入無法有效地被擴散模型利用」

這邊的原因有兩點:

  1. 圖像嵌入 E 和文本嵌入 E 來自不同的領域。由於擴散模型是在 E 上訓練的,因此它無法從圖像嵌入序列生成有意義的內容
  2. E 的維度為 Rk×257×1024,而 E 的維度為 Rk×77×768,其中 k 是批次大小,兩者之間存在維度不匹配
raw-image

那怎麼解決呢?他們使用兩個CLIP預訓練ViT-L/14 編碼器模型,分別生成圖像以及文本遷入的E,而在訓練過程中,適配器 也作為數據增強的一部分來使用。另一個主要優勢是不需要手動標註,因為原始圖像用作真實值。使用邊界框作為遮罩,它不僅完全覆蓋了物體,還延伸到物體的鄰近區域(為陰影生成提供了空間)。作者發現這對模型應用空間變換、合成新視圖、生成陰影和反射非常靈活。

回到IMPRINT透過這個內容適配器通過彌合圖像和文本嵌入空間之間的領域差距,使得能夠利用預訓練的文本到圖像 (T2I) 模型。

Image Decoder模型:圖像的解碼器來自於Stable Diffusion模型中的conditional denoising autoencoder,並且它們在訓練過程中對解碼器進行了微調(fine tune)

raw-image

這邊的損失函數目標在於最小化原始圖像以及生成圖像之間的差異,特別是針對原始物品的相關細節,可以看到[框框]中使用了預測的預測的噪音與解碼器(Decoder)生成的噪音之間來定義損失。在這個過程中,圖像編碼器 Eu 和解碼器塊 Gθ 會同時被優化,以確保模型在保持原始物品細節的同時,能夠從不同視角提取一致的表現。

這個模型的特點在於可以保留物體的細節並且不需要3d的資訊,所以不用像是用我們之前的作法是依靠相機拍攝等外部資訊。並且模型的重點放在保持物品的還原度而不是幾何的一致性。

🎨Stage 2(Compositing Stage)

raw-image

上方這張圖為Stage 2的流程, 此模型最主要的功能在於將圖片合成進背景圖,但經過作者的實驗若是忽略視角合成直接將編碼器和生成器在在同一個框架下共同訓練會造成兩者品質的下降,因此選擇凍結了模型的主要部分(DINOv2)也就是說encoder的權重不會改變,從而保持在Stage 1學到的能力以及穩定性。並且它們收集了一個全新的訓練集。

這邊的新的訓練集作者提到此資料集包含了豐富的背景,這樣的方法可以讓模型去學習豐富的光影以及幾何變化。而這資料集主要是來自Pixabay或是影像分割數據集(YoutubeVOS、VIPSeg 和 PPR10K)以及以物體為中心的數據集(MVImgNet和 Objaverse)這些數據集在我們的自監督訓練中被應用於不同的訓練階段,並結合了各種處理流程。

Stage 2模型

raw-image

生成器模型:這裡使用T2I模型作為生成器的主幹。而模型的Input為背景圖以及要合成的粗略遮罩用來標記物體的位置,以及保持物體身份信息的代碼,由圖像編碼器生成,用於指示被遮罩的物體圖像 。並將物體代碼注入到生成器的交叉注意力層中,這有助於模型在生成圖像時更好地保持物體的身份特徵(如形狀、姿態等)。而模型的目標函數如下:

raw-image

其中可以看到此目標為最小化生成圖像與目標圖像之間的差異,而ϵ 代表隨機噪聲,M是遮罩,用來標記需要關注的區域。這個過程中,生成器 Gϕ 和適配器會根據損失函數進行優化。

在背景融合的部分,為了使得背景接合處平滑採用了背景融合策略。這意味著在物體與背景交界處進行特殊處理,以避免明顯的邊界或不連續性,從而提升合成效果。以及透過形狀引導的可控合成 (Shape-guided Controllable Compositing)的方式通過繪製粗略的遮罩來控制生成物體的姿態和視角,使生成過程更靈活、實際。

模型也引入了四種不同精度的遮罩,其中最粗略的是邊界框。這樣的設計模擬了真實場景中用戶的需求,尤其是當需要更精確地控制物體位置和形狀時。

📌成果展示

raw-image
raw-image

可以看到相較於其他的模型,IMPRINT模型融合得更加地自然,只是最可惜的是此模型沒有進行開源因此我們用不到,不過此架構方法對於我們在最圖像合成是非常有價值的!

📌參考資料

ObjectStitch: Object Compositing with Diffusion Model

IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation







3會員
10內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
發表第一個留言支持創作者!
仁和的論文整理 的其他內容
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。