2023-12-20|閱讀時間 ‧ 約 1 分鐘

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。


開發動機:

擴散模型近年來取得很優異的高畫質圖片生成結果,但是需要多步驟迭代,導致運算速度無法達到Real time 生成,Luo et al. 基於Latent做一致性模型蒸餾+CFG手法,取得很優異的生成畫質與生成速度,激發了本篇作者們加以挑戰突破的原動力。


改良思路與影響:

  1. 利用GAN模型蒸餾,將學生模型的生成迭代次數降低成1次 (快速生成)
  2. 從老師擴散模型的Weight當作起始點,進行GAN蒸餾訓練
  3. 針對圖片本身做對抗生成訓練,而非Latent (訓練時梯度比較穩定)
  4. 沒有使用CFG(Class free guidance)方式進行蒸餾
  5. 沒有使用CM(Consistency model)方式進行蒸餾


論文取得成果:

使用人類進行二元偏好對抗投票,可以看到ADD-XL單步可以達到其他擴散模型迭代好幾步才能得到的成果,也比StyleGAN的效果還要好。


使用人類進行二元偏好對抗投票,可以看到ADD-XL四步迭代可以達到SOTA的結果,甚至能勝過頂尖擴散模型50次迭代的結果。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.