付費限定對抗擴散生成蒸餾(ADD) 讓生成模型快又有效
付費限定

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

更新於 發佈於 閱讀時間約 4 分鐘

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。


開發動機:

擴散模型近年來取得很優異的高畫質圖片生成結果,但是需要多步驟迭代,導致運算速度無法達到Real time 生成,Luo et al. 基於Latent做一致性模型蒸餾+CFG手法,取得很優異的生成畫質與生成速度,激發了本篇作者們加以挑戰突破的原動力。


改良思路與影響:

  1. 利用GAN模型蒸餾,將學生模型的生成迭代次數降低成1次 (快速生成)
  2. 從老師擴散模型的Weight當作起始點,進行GAN蒸餾訓練
  3. 針對圖片本身做對抗生成訓練,而非Latent (訓練時梯度比較穩定)
  4. 沒有使用CFG(Class free guidance)方式進行蒸餾
  5. 沒有使用CM(Consistency model)方式進行蒸餾


論文取得成果:

使用人類進行二元偏好對抗投票,可以看到ADD-XL單步可以達到其他擴散模型迭代好幾步才能得到的成果,也比StyleGAN的效果還要好。

raw-image


使用人類進行二元偏好對抗投票,可以看到ADD-XL四步迭代可以達到SOTA的結果,甚至能勝過頂尖擴散模型50次迭代的結果。

raw-image
以行動支持創作者!付費即可解鎖
本篇內容共 1831 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言
avatar-img
留言分享你的想法!
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。