AI影像論文(01):影像合成是如何實現的?Making Images Real Again: A Comprehens

閱讀時間約 5 分鐘

論文簡介

本文主要介紹影像合成任務的歷史解決方案,第一作者是由上海交大的教授Li Niu(牛力)撰寫。圖像合成是個複雜的電腦視覺任務,除了透視、物品的合理大小&位置還有像是光影這類型複雜的子任務需要去解決,像是下方圖片是論文所提供的一個例子。

raw-image

這篇論文將這個複雜的任務拆解為多個子任務去做調查:物品置入(Object Placement)、影像混合(Image Blending)、圖像協調(Image Harmonization)、陰影生成(Shadow Generation)。藉由多個子任務來使得合成出來之圖像看起來更加真實。

raw-image

多個子任務做法

其實之前已經有很多人去解決過相關的任務,接下來分別介紹之前其他人的解決方案。

📌物品置入(Object Placement)

物品置入涉及根據背景為置入物品找到合適的位置、大小和方向。

🐌傳統方法


過去的方法通常利用固定規則來確定物品的適合位置。這種方法對某些特定任務可能特別高效,但無法廣泛應用。


(EX.Learning to Segment via Cut-and-Paste)


🐛深度學習方法


進階一點的使用深度學習方式利用神經網路去做預測合理的位置,這些方法可以粗略分為兩種:1.特定類別 2.特定例子。舉個例子。


1.特定類別(category-specific object placement):根據背景圖像以及提供的物品類別去預測邊界框(Bounding Box),但這類型的方法相同的物品類別在不同的例子上可能會不適合。


2.特定例子(instance-specific object placement methods):這種方法會考慮物品的特徵與背景之間的關係。
raw-image
raw-image

📌影像混合(Image Blending)

影像混合的目標在於平滑化前景以及背景的過渡。讓合成的結果看起來更加自然。

🐌傳統方法


像是Alpha混合或是Laplacian pyramid混合的方式,會需要去手動調整過渡邊緣。


raw-image

🐛深度學習方法

針對多個深度學習方法去做實驗發現利用Poisson image blending可以較好的平滑化邊界,但是卻會扭曲前景之畫面。因此像是GP-GAN就利用Content loss 的方式去平衡原始圖像。

驗證方法:利用預訓練模型計算真實感分數&利用真人投票

📌圖像協調(Image Harmonization)

raw-image

圖像協調的目的是調整合成前景的顯示效果,使其在光照、顏色和色調上與背景匹配,解決因拍攝條件不同(如照明和相機設置)造成的不一致性。

在論文中總共說明了兩種主要的作法

🐌基於渲染的作法:根據光影條件來去作調整,但通常透過去判斷光影&3D材質的方式去做,這樣的作法不僅複雜且昂貴,對於應用於現實生活中也不方便。

🐛非基於渲染的作法:基於深度學習&統計方法去調整顏色,以使得前景的顏色和背景匹配。

像是使用CNN&GAN的方式去細化前景,使其自然融入
raw-image
raw-image

📌陰影生成(Shadow Generation)

如文字敘述所示,目標是想要為前景物品創造真實的陰影,以增強圖像之真實感。與圖像協調相似分為兩種方式去做實現:

🐌基於渲染的作法:基於場景幾何資訊&光影去對物品做渲染,但這樣的作法會遇到幾個問題。

(1)資料收集困難:像是許多資料往往需要用戶手動輸入或是透過複雜的測量和估計過程獲得,往往繁瑣且難以實現的。


(2)估計的不準確性(3)計算成本高昂(4)依賴專業知識(5)通用性問題

🐛非基於渲染的作法:利用深度學習的像是自動編碼器或像是GAN的深度學習架構來預測陰影遮罩。(通常基於有無陰影的資料去進行訓練。)

raw-image

一體式整合模型

隨著diffusion模型的流行,這類型的任務越來越熱門,前面講解的會是將合成影像的任務拆分成多個子任務,而接下來介紹的會是一體化的模型來完成此任務。

目前的方法多數使用深度學習的方式去做,主要其實分為兩大類。token-to-object&object-to-object。

🐌token-to-object:將輸入數據直接映射到相應的物體或場景,通常會利用預訓練模型針對範例圖片去做微調(fine tune)

🐛object-to-object:通常會利用大量的(前景&背景&原始圖像)對照數據來去訓練diffusion模型,首先前景為從原始圖像去做裁剪,接著將背景圖像&邊界框的遮罩和帶噪音之圖像串聯去做輸入,而前景通常會透過交叉注意力機制(Cross Attention Cross Attention)去注入模型中。

📑Kulal et al. 專注於人類生成 link


📑Chen et al. 利用高頻資訊提升前景的真實性 link


📑Zhang et al. 提供了整體&局部融合 link

相較於前面提到的將任務拆成多個子任務,統一模型會更加的簡潔,但相對的也犧牲的可控性。

raw-image

論文資料來源

https://doi.org/10.48550/arXiv.2106.14490

3會員
10內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。 它透過點擊以下方式產生提示,使得生成過程更加直覺和簡單: 透過範例圖像點擊生成; 將提示按主題、風格和參數分類; 提供了大量的預設提示。
Thumbnail
近日,我們推出了全新的AI 反向影像搜尋功能,為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同,我們的反向影像搜尋利用AI 技術來理解影像背後的上下文,從而提供更準確的搜尋結果。快來試試看,告訴我們您的體驗!
Thumbnail
Microsoft Bing影像建立工具已經推出一段時間,之前看到不少實測文章,雖然可調整選項不多,應該說是幾乎沒有,但是產生的圖片品質不錯,也有1024*1024的解析度。這次來試用看看,用中文描述的產出結果,還不錯!
Thumbnail
融合了花、葉與公園長椅,以「秋天的記憶」為題的八張影像重疊創作作品,透過美圖秀秀APP 「AI 繪畫藝術」,會蛻變出怎樣風格的秋光奏鳴曲?
Thumbnail
透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版,美濃湖的橋樑、遠山、湖,美濃湖的橋樑、遠山、湖面,樹林都有了不同的風貌,連人物造型跟拿的包包都有了整套的搭配變化,最有趣的是附近的檳榔樹與遠山,也變成了聖誕樹林,連遠處的平房也有了不同的建築形式。
Thumbnail
透過美圖秀秀APP「AI 繪畫藝術」測試版,你會發現龍虎塔的塔,你會發現龍虎塔的塔型,變得更古色古香,有些還幻化成了日本建築風格,塔前的石橋被東方風格的街頭古燈所取代,潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階,與西式的建築與路燈,上面還被白雪覆蓋著,連塔邊的樹種,天際的背景也有了轉換,東
Thumbnail
每年各種APP都會推出各種免費的年節電子賀卡,有的免費有的要付費,耶誕節、台灣元旦新年、農曆過年與西洋情人節陸續將至,如果你有寄發電子賀卡的習慣,今年不妨試試以下推薦的新玩意--- 免費的「美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成」!
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。 它透過點擊以下方式產生提示,使得生成過程更加直覺和簡單: 透過範例圖像點擊生成; 將提示按主題、風格和參數分類; 提供了大量的預設提示。
Thumbnail
近日,我們推出了全新的AI 反向影像搜尋功能,為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同,我們的反向影像搜尋利用AI 技術來理解影像背後的上下文,從而提供更準確的搜尋結果。快來試試看,告訴我們您的體驗!
Thumbnail
Microsoft Bing影像建立工具已經推出一段時間,之前看到不少實測文章,雖然可調整選項不多,應該說是幾乎沒有,但是產生的圖片品質不錯,也有1024*1024的解析度。這次來試用看看,用中文描述的產出結果,還不錯!
Thumbnail
融合了花、葉與公園長椅,以「秋天的記憶」為題的八張影像重疊創作作品,透過美圖秀秀APP 「AI 繪畫藝術」,會蛻變出怎樣風格的秋光奏鳴曲?
Thumbnail
透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版,美濃湖的橋樑、遠山、湖,美濃湖的橋樑、遠山、湖面,樹林都有了不同的風貌,連人物造型跟拿的包包都有了整套的搭配變化,最有趣的是附近的檳榔樹與遠山,也變成了聖誕樹林,連遠處的平房也有了不同的建築形式。
Thumbnail
透過美圖秀秀APP「AI 繪畫藝術」測試版,你會發現龍虎塔的塔,你會發現龍虎塔的塔型,變得更古色古香,有些還幻化成了日本建築風格,塔前的石橋被東方風格的街頭古燈所取代,潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階,與西式的建築與路燈,上面還被白雪覆蓋著,連塔邊的樹種,天際的背景也有了轉換,東
Thumbnail
每年各種APP都會推出各種免費的年節電子賀卡,有的免費有的要付費,耶誕節、台灣元旦新年、農曆過年與西洋情人節陸續將至,如果你有寄發電子賀卡的習慣,今年不妨試試以下推薦的新玩意--- 免費的「美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成」!