AI影像論文(01):影像合成是如何實現的?Making Images Real Again: A Comprehens

更新於 發佈於 閱讀時間約 5 分鐘

論文簡介

本文主要介紹影像合成任務的歷史解決方案,第一作者是由上海交大的教授Li Niu(牛力)撰寫。圖像合成是個複雜的電腦視覺任務,除了透視、物品的合理大小&位置還有像是光影這類型複雜的子任務需要去解決,像是下方圖片是論文所提供的一個例子。

raw-image

這篇論文將這個複雜的任務拆解為多個子任務去做調查:物品置入(Object Placement)、影像混合(Image Blending)、圖像協調(Image Harmonization)、陰影生成(Shadow Generation)。藉由多個子任務來使得合成出來之圖像看起來更加真實。

raw-image

多個子任務做法

其實之前已經有很多人去解決過相關的任務,接下來分別介紹之前其他人的解決方案。

📌物品置入(Object Placement)

物品置入涉及根據背景為置入物品找到合適的位置、大小和方向。

🐌傳統方法


過去的方法通常利用固定規則來確定物品的適合位置。這種方法對某些特定任務可能特別高效,但無法廣泛應用。


(EX.Learning to Segment via Cut-and-Paste)


🐛深度學習方法


進階一點的使用深度學習方式利用神經網路去做預測合理的位置,這些方法可以粗略分為兩種:1.特定類別 2.特定例子。舉個例子。


1.特定類別(category-specific object placement):根據背景圖像以及提供的物品類別去預測邊界框(Bounding Box),但這類型的方法相同的物品類別在不同的例子上可能會不適合。


2.特定例子(instance-specific object placement methods):這種方法會考慮物品的特徵與背景之間的關係。
raw-image
raw-image

📌影像混合(Image Blending)

影像混合的目標在於平滑化前景以及背景的過渡。讓合成的結果看起來更加自然。

🐌傳統方法


像是Alpha混合或是Laplacian pyramid混合的方式,會需要去手動調整過渡邊緣。


raw-image

🐛深度學習方法

針對多個深度學習方法去做實驗發現利用Poisson image blending可以較好的平滑化邊界,但是卻會扭曲前景之畫面。因此像是GP-GAN就利用Content loss 的方式去平衡原始圖像。

驗證方法:利用預訓練模型計算真實感分數&利用真人投票

📌圖像協調(Image Harmonization)

raw-image

圖像協調的目的是調整合成前景的顯示效果,使其在光照、顏色和色調上與背景匹配,解決因拍攝條件不同(如照明和相機設置)造成的不一致性。

在論文中總共說明了兩種主要的作法

🐌基於渲染的作法:根據光影條件來去作調整,但通常透過去判斷光影&3D材質的方式去做,這樣的作法不僅複雜且昂貴,對於應用於現實生活中也不方便。

🐛非基於渲染的作法:基於深度學習&統計方法去調整顏色,以使得前景的顏色和背景匹配。

像是使用CNN&GAN的方式去細化前景,使其自然融入
raw-image
raw-image

📌陰影生成(Shadow Generation)

如文字敘述所示,目標是想要為前景物品創造真實的陰影,以增強圖像之真實感。與圖像協調相似分為兩種方式去做實現:

🐌基於渲染的作法:基於場景幾何資訊&光影去對物品做渲染,但這樣的作法會遇到幾個問題。

(1)資料收集困難:像是許多資料往往需要用戶手動輸入或是透過複雜的測量和估計過程獲得,往往繁瑣且難以實現的。


(2)估計的不準確性(3)計算成本高昂(4)依賴專業知識(5)通用性問題

🐛非基於渲染的作法:利用深度學習的像是自動編碼器或像是GAN的深度學習架構來預測陰影遮罩。(通常基於有無陰影的資料去進行訓練。)

raw-image

一體式整合模型

隨著diffusion模型的流行,這類型的任務越來越熱門,前面講解的會是將合成影像的任務拆分成多個子任務,而接下來介紹的會是一體化的模型來完成此任務。

目前的方法多數使用深度學習的方式去做,主要其實分為兩大類。token-to-object&object-to-object。

🐌token-to-object:將輸入數據直接映射到相應的物體或場景,通常會利用預訓練模型針對範例圖片去做微調(fine tune)

🐛object-to-object:通常會利用大量的(前景&背景&原始圖像)對照數據來去訓練diffusion模型,首先前景為從原始圖像去做裁剪,接著將背景圖像&邊界框的遮罩和帶噪音之圖像串聯去做輸入,而前景通常會透過交叉注意力機制(Cross Attention Cross Attention)去注入模型中。

📑Kulal et al. 專注於人類生成 link


📑Chen et al. 利用高頻資訊提升前景的真實性 link


📑Zhang et al. 提供了整體&局部融合 link

相較於前面提到的將任務拆成多個子任務,統一模型會更加的簡潔,但相對的也犧牲的可控性。

raw-image

論文資料來源

https://doi.org/10.48550/arXiv.2106.14490

留言
avatar-img
留言分享你的想法!
avatar-img
仁和的論文整理
3會員
11內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
仁和的論文整理的其他內容
2024/12/16
本文介紹了MureObjectStitch,一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略,能夠在不同前景物件的影像中學習其不同姿態和視角,從而生成更真實的合成結果。法。
Thumbnail
2024/12/16
本文介紹了MureObjectStitch,一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略,能夠在不同前景物件的影像中學習其不同姿態和視角,從而生成更真實的合成結果。法。
Thumbnail
2024/08/20
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
Thumbnail
2024/08/20
本文介紹了IMPRINT模型的架構與實作,該模型由Adobe研究團隊於2024年發表,採用Two Stage學習框架,並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值,儘管模型尚未開源,但其架構與方法對未來研究具有指導意義。
Thumbnail
2024/08/13
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
Thumbnail
2024/08/13
在過去的捐贈模式中,對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具,提供了有效且透明的捐贈過程。並且以Lokai品牌為例,展示瞭如何透過CHANGE平臺提升會員保留率,並加強企業與顧客之間的聯繫。
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流,還可以幫線稿上色。
Thumbnail
這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流,還可以幫線稿上色。
Thumbnail
我們將從四個角度切入,深度理解虛擬製作的核心主題與模式
Thumbnail
我們將從四個角度切入,深度理解虛擬製作的核心主題與模式
Thumbnail
這篇介紹 Allor Plugin 的影像合成用節點。
Thumbnail
這篇介紹 Allor Plugin 的影像合成用節點。
Thumbnail
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
Thumbnail
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News