AI影像論文(05):StableDiffusion非對稱性VQGAN

閱讀時間約 3 分鐘


raw-image

📌簡介

raw-image

過去幾天我們看了非常多個影像合成的相關論文,有像是整理過去影像合成做法的研究,以及其中的一個模型ControlCom,這次要介紹的是另一個影像合成模型VQGAN。


在這篇論文中,研究團隊改進了VQGAN用於StableDiffusion中,他們發現原先使用的VQGAN會導致資訊丟失,甚至在非編輯區也會出現失真的現象,這主要是因為VQGAN在壓縮和量化圖像時引入的誤差,導致解碼後的圖像出現扭曲。


📌介紹

在介紹前我們先來一點背景知識的建立。

🐌什麼是VQGAN?

raw-image

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,他主要的應用是創造新的、逼真的圖像或修改現有圖像。如字面上的意思他有兩個核心部分VQ與GAN。VQ是一種數據壓縮的技術,可以將連續數據表示為離散的向量。


在VQGAN中輸入的圖像或文本會先被編碼為連續的向量表示,然後被映射到向量空間中,這個過程通過使用離散化的編碼器與解碼器實現。


  • 編碼器 (Encoder):將輸入的圖像轉換成潛在空間(latent space)的表示。接著使用卷積神經網絡(CNN)將圖像壓縮成較小的特徵圖。
  • 解碼器 (Decoder):將量化後的表示轉換回圖像空間。使用轉置卷積(或上採樣)將特徵圖重建為完整圖像。

📌方法架構

研究團隊最主要為提出了一種新的非對稱式VQGAN。非對稱式VQGAN包含了兩個設計條件解碼器以及更強大的解碼器。


並且在這樣的架構下訓練非對稱VQGAN的成本較低,只需要重新訓練新的非對稱解碼器,而保持原有的VQGAN編碼器和StableDiffusion模型不變。


raw-image

🐌條件解碼器

條件解碼器最主要的目的是為了保留條件輸入的細節。那他們怎麼去實現這個目的呢?

多層特徵表示:條件解碼器會使用多層特徵圖來表示條件輸入,而不是將其壓縮成單層特徵。這樣可以保留更多的細節信息。

上方這行是什麼意思呢?主要是因為在傳統的VQGAN中,條件輸入(如遮罩圖像)通常會被壓縮成一個單一的特徵層。這個單層特徵可能是通過將整個圖像壓縮到一個固定大小的向量來實現的。這種壓縮可能會導致大量細節信息的丟失。

而多層特徵表示會使用多個不同尺度的特徵來表示輸入,通常從淺層到深層,捕捉不同級別的資訊,像是可能淺層會去捕捉細微的紋理及邊緣,中間層可能捕捉複雜的結構和形狀。

輕量級編碼器E:使用一個輕量級的編碼器來提取條件輸入的不同層級的特徵圖。
raw-image
MGB模塊

接著我們可以在架構圖看到一個MGB的模塊,MGB模塊是什麼呢?MGB模塊的目的是將條件特徵與解碼器特徵進行融合。他的工作原理是使用遮罩來直接複製解碼器特徵的遮罩區域,同時結合來自編碼器E的非遮罩區域特徵。

這樣的作法可以在不修改解碼器結構的情況下,插入MGB模塊。另外也提升了兼容性既可以處理有遮罩的編輯任務,也可以處理純生成任務。

🐌更大解碼器

在這邊研究團隊增強了解碼器的模型大小,只需要在推理階段略為增加計算成本就可以增強恢復細節的能力。

🐌訓練策略

在訓練過程中,在訓練過程中,隨機使用兩種情況:一種是隨機生成的遮罩,另一種是完全填充的遮罩。這確保了解碼器既能處理部分遮罩的情況,也能處理純生成的情況。也就是上方提到的兼容性。

raw-image

📌結論

raw-image

最後可以從下方圖表中看到,相較於傳統的StableDiffusion模型在FID以及IS上有著不錯的提升,除此之外此方法還帶來了幾個優勢像是可以同時用於帶遮罩的編輯任務和純文本到圖像生成任務。另外還保留了StableDiffusion原有的文本到圖像生成能力。

📌參考資料

論文:https://arxiv.org/pdf/2306.04632




avatar-img
3會員
11內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
仁和的論文整理 的其他內容
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
DDPM是最近備受矚目的影像生成模型,本文探討了DDPM中的擴散與降噪過程,以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除,DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理,請閱讀完整文章。
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
你可能也想看
Google News 追蹤
Thumbnail
可能包含敏感內容
出圖很簡單,造好圖得努力學習,依然門外漢
Thumbnail
可能包含敏感內容
首次創作,缺陷很多
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
可能包含敏感內容
出圖很簡單,造好圖得努力學習,依然門外漢
Thumbnail
可能包含敏感內容
首次創作,缺陷很多
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人