Stable Diffusion 是一個基於潛在擴散模型(Latent Diffusion Model, LDM)的文字到影像的生成模型,它能從文字描述自動生成高品質、高解析度的圖像。這個模型由 CompVis 團隊與 Stability AI 等合作開發,並基於 LAION 大型開源圖像語言對齊數據集訓練。
核心架構特色:
• 潛在擴散模型:Stable Diffusion 先通過 autoencoder 將高解析度圖像壓縮到一個較低維度的潛在空間,擴散過程在這個潛在空間中進行,減少計算量和記憶體需求。• 條件化文本嵌入(CLIP):輸入的文字透過 CLIP 模型產生語義嵌入,這個文本嵌入作為條件融合進入擴散模型,引導圖像生成與文字相匹配。
• U-Net 結構:用於預測潛在空間中噪聲的 U-Net,經過逐步去噪以合成完整圖像。
• 強大且高效:相較於直接在像素空間生成,Stable Diffusion 在潛在空間運作使計算更加高效,同時保持圖像品質。
優點:
• 可在標準 GPU 上以較低成本執行。
• 支援高解析度(如512x512或更大格式)影像生成。
• 具備靈活的條件控制能力,可生成多樣化風格和主題的圖像。
• 開源且廣泛應用於藝術創作、遊戲設計、視覺效果製作等領域。
運作流程簡述:
1. 使用 CLIP 編碼器將文字轉換成上下文向量。
2. 將潛在噪聲向量與上下文向量一起輸入擴散 U-Net。
3. 網路逐步去除潛在空間的噪聲,重建出符合文字描述的潛在向量。
4. 利用解碼器將潛在向量轉回高解析度圖像。
總結:
Stable Diffusion 是目前生成式 AI 領域非常受注目的文字到圖像模型,結合潛在擴散與語義條件化,實現了資源節省且畫質優秀的效果,成為藝術創作和生成模型應用的重要工具。












