AI影像論文(05)：StableDiffusion非對稱性VQGAN

仁和黃

更新於 2024/07/04發佈於 2024/07/04閱讀時間約 3 分鐘

📌簡介

過去幾天我們看了非常多個影像合成的相關論文，有像是整理過去影像合成做法的研究，以及其中的一個模型ControlCom，這次要介紹的是另一個影像合成模型VQGAN。

在這篇論文中，研究團隊改進了VQGAN用於StableDiffusion中，他們發現原先使用的VQGAN會導致資訊丟失，甚至在非編輯區也會出現失真的現象，這主要是因為VQGAN在壓縮和量化圖像時引入的誤差，導致解碼後的圖像出現扭曲。

📌介紹

在介紹前我們先來一點背景知識的建立。

🐌什麼是VQGAN?

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，他主要的應用是創造新的、逼真的圖像或修改現有圖像。如字面上的意思他有兩個核心部分VQ與GAN。VQ是一種數據壓縮的技術，可以將連續數據表示為離散的向量。

在VQGAN中輸入的圖像或文本會先被編碼為連續的向量表示，然後被映射到向量空間中，這個過程通過使用離散化的編碼器與解碼器實現。

編碼器 (Encoder)：將輸入的圖像轉換成潛在空間(latent space)的表示。接著使用卷積神經網絡(CNN)將圖像壓縮成較小的特徵圖。
解碼器 (Decoder)：將量化後的表示轉換回圖像空間。使用轉置卷積(或上採樣)將特徵圖重建為完整圖像。

📌方法架構

研究團隊最主要為提出了一種新的非對稱式VQGAN。非對稱式VQGAN包含了兩個設計條件解碼器以及更強大的解碼器。

並且在這樣的架構下訓練非對稱VQGAN的成本較低，只需要重新訓練新的非對稱解碼器，而保持原有的VQGAN編碼器和StableDiffusion模型不變。

🐌條件解碼器

條件解碼器最主要的目的是為了保留條件輸入的細節。那他們怎麼去實現這個目的呢?

多層特徵表示：條件解碼器會使用多層特徵圖來表示條件輸入，而不是將其壓縮成單層特徵。這樣可以保留更多的細節信息。

上方這行是什麼意思呢？主要是因為在傳統的VQGAN中，條件輸入（如遮罩圖像）通常會被壓縮成一個單一的特徵層。這個單層特徵可能是通過將整個圖像壓縮到一個固定大小的向量來實現的。這種壓縮可能會導致大量細節信息的丟失。

而多層特徵表示會使用多個不同尺度的特徵來表示輸入，通常從淺層到深層，捕捉不同級別的資訊，像是可能淺層會去捕捉細微的紋理及邊緣，中間層可能捕捉複雜的結構和形狀。

輕量級編碼器E：使用一個輕量級的編碼器來提取條件輸入的不同層級的特徵圖。

MGB模塊

接著我們可以在架構圖看到一個MGB的模塊，MGB模塊是什麼呢?MGB模塊的目的是將條件特徵與解碼器特徵進行融合。他的工作原理是使用遮罩來直接複製解碼器特徵的遮罩區域,同時結合來自編碼器E的非遮罩區域特徵。

這樣的作法可以在不修改解碼器結構的情況下，插入MGB模塊。另外也提升了兼容性既可以處理有遮罩的編輯任務,也可以處理純生成任務。

🐌更大解碼器

在這邊研究團隊增強了解碼器的模型大小，只需要在推理階段略為增加計算成本就可以增強恢復細節的能力。

🐌訓練策略

在訓練過程中，在訓練過程中，隨機使用兩種情況:一種是隨機生成的遮罩，另一種是完全填充的遮罩。這確保了解碼器既能處理部分遮罩的情況，也能處理純生成的情況。也就是上方提到的兼容性。

📌結論

最後可以從下方圖表中看到，相較於傳統的StableDiffusion模型在FID以及IS上有著不錯的提升，除此之外此方法還帶來了幾個優勢像是可以同時用於帶遮罩的編輯任務和純文本到圖像生成任務。另外還保留了StableDiffusion原有的文本到圖像生成能力。

📌參考資料

論文：https://arxiv.org/pdf/2306.04632

留言

留言分享你的想法！

仁和的論文整理

3會員

11內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

仁和的論文整理的其他內容

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

本文介紹了MureObjectStitch，一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略，能夠在不同前景物件的影像中學習其不同姿態和視角，從而生成更真實的合成結果。法。

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

本文介紹了IMPRINT模型的架構與實作，該模型由Adobe研究團隊於2024年發表，採用Two Stage學習框架，並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值，儘管模型尚未開源，但其架構與方法對未來研究具有指導意義。

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

在過去的捐贈模式中，對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具，提供了有效且透明的捐贈過程。並且以Lokai品牌為例，展示瞭如何透過CHANGE平臺提升會員保留率，並加強企業與顧客之間的聯繫。

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

[深度學習]訓練VAE模型用於生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的VAE模型其中的解碼器，來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇輸入產生的隨機雜訊，輸入VAE的解碼器後，生成的圖片

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

本文主要介紹，如何利用VAE變分自編碼器來訓練生成圖片。訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器，主要是一種將原始資料編碼到潛在向量空間，再編碼回來的神經網路。

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

#深度學習#VAE模型#生成圖片

2024/07/25

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

GNN發展背景傳統的深度學習模型如在計算機視覺（CV）和自然語言處理（NLP）領域中極為成功，主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構，例如影像是由有序的像素點組成。然而，在真實世界中，許多數據是非結構化的，如化合物結構（原子和分子）。這些數據雖然具有一定的規則性，

#數據#結構#社交

2024/07/22

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

#數據#結構#社交

2024/07/22

子不語怪・力・亂・神

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion#AI繪圖#插畫

2024/07/15

子不語怪・力・亂・神

Stable Diffusion練習，營火

#StableDiffusion#AI繪圖#插畫

2024/07/15

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構，並提出了一種新的非對稱式VQGAN，具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。

#論文#AI#資料科學

2024/07/04

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

2024/07/04

2024/03/21

2024/03/21

這篇要介紹AI生成影片的兩個方式：SVD 跟 AnimateDiff。

#comfyui#stablediffusion#AI繪圖

2024/02/29

Frank Plaza

ComfyUI 研究 - 生成影片

這篇要介紹AI生成影片的兩個方式：SVD 跟 AnimateDiff。

#comfyui#stablediffusion#AI繪圖

2024/02/29

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News