AI影像論文(05)：StableDiffusion非對稱性VQGAN

仁和黃

更新於 2024/07/04發佈於 2024/07/04閱讀時間約 3 分鐘

📌簡介

過去幾天我們看了非常多個影像合成的相關論文，有像是整理過去影像合成做法的研究，以及其中的一個模型ControlCom，這次要介紹的是另一個影像合成模型VQGAN。

在這篇論文中，研究團隊改進了VQGAN用於StableDiffusion中，他們發現原先使用的VQGAN會導致資訊丟失，甚至在非編輯區也會出現失真的現象，這主要是因為VQGAN在壓縮和量化圖像時引入的誤差，導致解碼後的圖像出現扭曲。

📌介紹

在介紹前我們先來一點背景知識的建立。

🐌什麼是VQGAN?

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，他主要的應用是創造新的、逼真的圖像或修改現有圖像。如字面上的意思他有兩個核心部分VQ與GAN。VQ是一種數據壓縮的技術，可以將連續數據表示為離散的向量。

在VQGAN中輸入的圖像或文本會先被編碼為連續的向量表示，然後被映射到向量空間中，這個過程通過使用離散化的編碼器與解碼器實現。

編碼器 (Encoder)：將輸入的圖像轉換成潛在空間(latent space)的表示。接著使用卷積神經網絡(CNN)將圖像壓縮成較小的特徵圖。
解碼器 (Decoder)：將量化後的表示轉換回圖像空間。使用轉置卷積(或上採樣)將特徵圖重建為完整圖像。

📌方法架構

研究團隊最主要為提出了一種新的非對稱式VQGAN。非對稱式VQGAN包含了兩個設計條件解碼器以及更強大的解碼器。

並且在這樣的架構下訓練非對稱VQGAN的成本較低，只需要重新訓練新的非對稱解碼器，而保持原有的VQGAN編碼器和StableDiffusion模型不變。

🐌條件解碼器

條件解碼器最主要的目的是為了保留條件輸入的細節。那他們怎麼去實現這個目的呢?

多層特徵表示：條件解碼器會使用多層特徵圖來表示條件輸入，而不是將其壓縮成單層特徵。這樣可以保留更多的細節信息。

上方這行是什麼意思呢？主要是因為在傳統的VQGAN中，條件輸入（如遮罩圖像）通常會被壓縮成一個單一的特徵層。這個單層特徵可能是通過將整個圖像壓縮到一個固定大小的向量來實現的。這種壓縮可能會導致大量細節信息的丟失。

而多層特徵表示會使用多個不同尺度的特徵來表示輸入，通常從淺層到深層，捕捉不同級別的資訊，像是可能淺層會去捕捉細微的紋理及邊緣，中間層可能捕捉複雜的結構和形狀。

輕量級編碼器E：使用一個輕量級的編碼器來提取條件輸入的不同層級的特徵圖。

MGB模塊

接著我們可以在架構圖看到一個MGB的模塊，MGB模塊是什麼呢?MGB模塊的目的是將條件特徵與解碼器特徵進行融合。他的工作原理是使用遮罩來直接複製解碼器特徵的遮罩區域,同時結合來自編碼器E的非遮罩區域特徵。

這樣的作法可以在不修改解碼器結構的情況下，插入MGB模塊。另外也提升了兼容性既可以處理有遮罩的編輯任務,也可以處理純生成任務。

🐌更大解碼器

在這邊研究團隊增強了解碼器的模型大小，只需要在推理階段略為增加計算成本就可以增強恢復細節的能力。

🐌訓練策略

在訓練過程中，在訓練過程中，隨機使用兩種情況:一種是隨機生成的遮罩，另一種是完全填充的遮罩。這確保了解碼器既能處理部分遮罩的情況，也能處理純生成的情況。也就是上方提到的兼容性。

📌結論

最後可以從下方圖表中看到，相較於傳統的StableDiffusion模型在FID以及IS上有著不錯的提升，除此之外此方法還帶來了幾個優勢像是可以同時用於帶遮罩的編輯任務和純文本到圖像生成任務。另外還保留了StableDiffusion原有的文本到圖像生成能力。

📌參考資料

論文：https://arxiv.org/pdf/2306.04632

仁和的論文整理

3會員

11內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

留言

留言分享你的想法！

仁和的論文整理的其他內容

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

本文介紹了MureObjectStitch，一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略，能夠在不同前景物件的影像中學習其不同姿態和視角，從而生成更真實的合成結果。法。

#影像 #模型 #論文

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

本文介紹了IMPRINT模型的架構與實作，該模型由Adobe研究團隊於2024年發表，採用Two Stage學習框架，並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值，儘管模型尚未開源，但其架構與方法對未來研究具有指導意義。

#數據 #資訊 #論文

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

在過去的捐贈模式中，對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具，提供了有效且透明的捐贈過程。並且以Lokai品牌為例，展示瞭如何透過CHANGE平臺提升會員保留率，並加強企業與顧客之間的聯繫。

#SolanaWriteathon #BGA #web3