Latent Diffusion Model(LDM)是一種現代深度生成模型,主要應用於高解析度影像生成(如 Stable Diffusion)。它在「潛在空間」(latent space)裡操作擴散過程,以更少資源實現高品質生成。
核心架構與原理:
• Autoencoder 壓縮:先訓練一個 autoencoder,把原始資料(如圖片)壓縮成潛在空間裡的低維度特徵表徵。這使後續運算集中在資訊最多但維度最少的地方,提高效率。• 潛在空間內的擴散建模:傳統擴散模型(Diffusion Model)是在原始像素空間反覆加入/去除雜訊,但這樣訓練和生成成本非常高。LDM 則在 autoencoder 的潛在空間進行擴散過程,大大減少了運算量——既降低複雜度又不損畫質。
• 擴散過程:模型先將潛在向量反覆加入高斯噪聲,訓練模型再學習如何一步步「去掉」這些噪聲,最終重建回原始潛在向量,經過解碼器還原成影像。
• 多種「條件化」:透過 cross-attention 機制,LDM 可以接收如文字描述、框選、語意分割等條件,產生指定風格、內容的高畫質影像。
• 損失函數:主要用 MSE(均方誤差)來衡量模型預測的噪聲是否和真實噪聲相符。
主要優勢
• 極大減少訓練資源消耗(只需潛在空間運算,而非高維像素空間)。
• 可生成高解析度、高質量圖像,並支持各種應用(如圖像修補、文字生成圖片、超解析度)。
• 图像生成速度更快,适合实际部署。
代表性應用
• Stable Diffusion、Dalai 等文字到圖像的生成式 AI 就是基於 LDM 架構。
• 圖像超解析、修補、語義合成等高階影像任務。
總結:
Latent Diffusion Model 是把「擴散模型」帶進了壓縮後的潛在空間,利用 autoencoder 把高維數據壓縮進精華空間,使得影像生成又快又省資源,但畫質依然出色,成為目前生成式 AI 圖像領域的主流技術之一。










