AI影像論文(05):StableDiffusion非對稱性VQGAN

閱讀時間約 3 分鐘


raw-image

📌簡介

raw-image

過去幾天我們看了非常多個影像合成的相關論文,有像是整理過去影像合成做法的研究,以及其中的一個模型ControlCom,這次要介紹的是另一個影像合成模型VQGAN。


在這篇論文中,研究團隊改進了VQGAN用於StableDiffusion中,他們發現原先使用的VQGAN會導致資訊丟失,甚至在非編輯區也會出現失真的現象,這主要是因為VQGAN在壓縮和量化圖像時引入的誤差,導致解碼後的圖像出現扭曲。


📌介紹

在介紹前我們先來一點背景知識的建立。

🐌什麼是VQGAN?

raw-image

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,他主要的應用是創造新的、逼真的圖像或修改現有圖像。如字面上的意思他有兩個核心部分VQ與GAN。VQ是一種數據壓縮的技術,可以將連續數據表示為離散的向量。


在VQGAN中輸入的圖像或文本會先被編碼為連續的向量表示,然後被映射到向量空間中,這個過程通過使用離散化的編碼器與解碼器實現。


  • 編碼器 (Encoder):將輸入的圖像轉換成潛在空間(latent space)的表示。接著使用卷積神經網絡(CNN)將圖像壓縮成較小的特徵圖。
  • 解碼器 (Decoder):將量化後的表示轉換回圖像空間。使用轉置卷積(或上採樣)將特徵圖重建為完整圖像。

📌方法架構

研究團隊最主要為提出了一種新的非對稱式VQGAN。非對稱式VQGAN包含了兩個設計條件解碼器以及更強大的解碼器。


並且在這樣的架構下訓練非對稱VQGAN的成本較低,只需要重新訓練新的非對稱解碼器,而保持原有的VQGAN編碼器和StableDiffusion模型不變。


raw-image

🐌條件解碼器

條件解碼器最主要的目的是為了保留條件輸入的細節。那他們怎麼去實現這個目的呢?

多層特徵表示:條件解碼器會使用多層特徵圖來表示條件輸入,而不是將其壓縮成單層特徵。這樣可以保留更多的細節信息。

上方這行是什麼意思呢?主要是因為在傳統的VQGAN中,條件輸入(如遮罩圖像)通常會被壓縮成一個單一的特徵層。這個單層特徵可能是通過將整個圖像壓縮到一個固定大小的向量來實現的。這種壓縮可能會導致大量細節信息的丟失。

而多層特徵表示會使用多個不同尺度的特徵來表示輸入,通常從淺層到深層,捕捉不同級別的資訊,像是可能淺層會去捕捉細微的紋理及邊緣,中間層可能捕捉複雜的結構和形狀。

輕量級編碼器E:使用一個輕量級的編碼器來提取條件輸入的不同層級的特徵圖。
raw-image
MGB模塊

接著我們可以在架構圖看到一個MGB的模塊,MGB模塊是什麼呢?MGB模塊的目的是將條件特徵與解碼器特徵進行融合。他的工作原理是使用遮罩來直接複製解碼器特徵的遮罩區域,同時結合來自編碼器E的非遮罩區域特徵。

這樣的作法可以在不修改解碼器結構的情況下,插入MGB模塊。另外也提升了兼容性既可以處理有遮罩的編輯任務,也可以處理純生成任務。

🐌更大解碼器

在這邊研究團隊增強了解碼器的模型大小,只需要在推理階段略為增加計算成本就可以增強恢復細節的能力。

🐌訓練策略

在訓練過程中,在訓練過程中,隨機使用兩種情況:一種是隨機生成的遮罩,另一種是完全填充的遮罩。這確保了解碼器既能處理部分遮罩的情況,也能處理純生成的情況。也就是上方提到的兼容性。

raw-image

📌結論

raw-image

最後可以從下方圖表中看到,相較於傳統的StableDiffusion模型在FID以及IS上有著不錯的提升,除此之外此方法還帶來了幾個優勢像是可以同時用於帶遮罩的編輯任務和純文本到圖像生成任務。另外還保留了StableDiffusion原有的文本到圖像生成能力。

📌參考資料

論文:https://arxiv.org/pdf/2306.04632




3會員
10內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
發表第一個留言支持創作者!
仁和的論文整理 的其他內容
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。 它透過點擊以下方式產生提示,使得生成過程更加直覺和簡單: 透過範例圖像點擊生成; 將提示按主題、風格和參數分類; 提供了大量的預設提示。
Thumbnail
近日,我們推出了全新的AI 反向影像搜尋功能,為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同,我們的反向影像搜尋利用AI 技術來理解影像背後的上下文,從而提供更準確的搜尋結果。快來試試看,告訴我們您的體驗!
Thumbnail
Microsoft Bing影像建立工具已經推出一段時間,之前看到不少實測文章,雖然可調整選項不多,應該說是幾乎沒有,但是產生的圖片品質不錯,也有1024*1024的解析度。這次來試用看看,用中文描述的產出結果,還不錯!
Thumbnail
融合了花、葉與公園長椅,以「秋天的記憶」為題的八張影像重疊創作作品,透過美圖秀秀APP 「AI 繪畫藝術」,會蛻變出怎樣風格的秋光奏鳴曲?
Thumbnail
透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版,美濃湖的橋樑、遠山、湖,美濃湖的橋樑、遠山、湖面,樹林都有了不同的風貌,連人物造型跟拿的包包都有了整套的搭配變化,最有趣的是附近的檳榔樹與遠山,也變成了聖誕樹林,連遠處的平房也有了不同的建築形式。
Thumbnail
透過美圖秀秀APP「AI 繪畫藝術」測試版,你會發現龍虎塔的塔,你會發現龍虎塔的塔型,變得更古色古香,有些還幻化成了日本建築風格,塔前的石橋被東方風格的街頭古燈所取代,潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階,與西式的建築與路燈,上面還被白雪覆蓋著,連塔邊的樹種,天際的背景也有了轉換,東
Thumbnail
每年各種APP都會推出各種免費的年節電子賀卡,有的免費有的要付費,耶誕節、台灣元旦新年、農曆過年與西洋情人節陸續將至,如果你有寄發電子賀卡的習慣,今年不妨試試以下推薦的新玩意--- 免費的「美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成」!
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。 它透過點擊以下方式產生提示,使得生成過程更加直覺和簡單: 透過範例圖像點擊生成; 將提示按主題、風格和參數分類; 提供了大量的預設提示。
Thumbnail
近日,我們推出了全新的AI 反向影像搜尋功能,為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同,我們的反向影像搜尋利用AI 技術來理解影像背後的上下文,從而提供更準確的搜尋結果。快來試試看,告訴我們您的體驗!
Thumbnail
Microsoft Bing影像建立工具已經推出一段時間,之前看到不少實測文章,雖然可調整選項不多,應該說是幾乎沒有,但是產生的圖片品質不錯,也有1024*1024的解析度。這次來試用看看,用中文描述的產出結果,還不錯!
Thumbnail
融合了花、葉與公園長椅,以「秋天的記憶」為題的八張影像重疊創作作品,透過美圖秀秀APP 「AI 繪畫藝術」,會蛻變出怎樣風格的秋光奏鳴曲?
Thumbnail
透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版,美濃湖的橋樑、遠山、湖,美濃湖的橋樑、遠山、湖面,樹林都有了不同的風貌,連人物造型跟拿的包包都有了整套的搭配變化,最有趣的是附近的檳榔樹與遠山,也變成了聖誕樹林,連遠處的平房也有了不同的建築形式。
Thumbnail
透過美圖秀秀APP「AI 繪畫藝術」測試版,你會發現龍虎塔的塔,你會發現龍虎塔的塔型,變得更古色古香,有些還幻化成了日本建築風格,塔前的石橋被東方風格的街頭古燈所取代,潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階,與西式的建築與路燈,上面還被白雪覆蓋著,連塔邊的樹種,天際的背景也有了轉換,東
Thumbnail
每年各種APP都會推出各種免費的年節電子賀卡,有的免費有的要付費,耶誕節、台灣元旦新年、農曆過年與西洋情人節陸續將至,如果你有寄發電子賀卡的習慣,今年不妨試試以下推薦的新玩意--- 免費的「美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成」!