Stable Diffusion

2025/08/18 更新2025/08/18 發佈閱讀 2 分鐘

Stable Diffusion 是一個基於潛在擴散模型（Latent Diffusion Model, LDM）的文字到影像的生成模型，它能從文字描述自動生成高品質、高解析度的圖像。這個模型由 CompVis 團隊與 Stability AI 等合作開發，並基於 LAION 大型開源圖像語言對齊數據集訓練。

核心架構特色：

• 潛在擴散模型：Stable Diffusion 先通過 autoencoder 將高解析度圖像壓縮到一個較低維度的潛在空間，擴散過程在這個潛在空間中進行，減少計算量和記憶體需求。

• 條件化文本嵌入（CLIP）：輸入的文字透過 CLIP 模型產生語義嵌入，這個文本嵌入作為條件融合進入擴散模型，引導圖像生成與文字相匹配。

• U-Net 結構：用於預測潛在空間中噪聲的 U-Net，經過逐步去噪以合成完整圖像。

• 強大且高效：相較於直接在像素空間生成，Stable Diffusion 在潛在空間運作使計算更加高效，同時保持圖像品質。

優點：

• 可在標準 GPU 上以較低成本執行。

• 支援高解析度（如512x512或更大格式）影像生成。

• 具備靈活的條件控制能力，可生成多樣化風格和主題的圖像。

• 開源且廣泛應用於藝術創作、遊戲設計、視覺效果製作等領域。

運作流程簡述：

1. 使用 CLIP 編碼器將文字轉換成上下文向量。

2. 將潛在噪聲向量與上下文向量一起輸入擴散 U-Net。

3. 網路逐步去除潛在空間的噪聲，重建出符合文字描述的潛在向量。

4. 利用解碼器將潛在向量轉回高解析度圖像。

總結：

Stable Diffusion 是目前生成式 AI 領域非常受注目的文字到圖像模型，結合潛在擴散與語義條件化，實現了資源節省且畫質優秀的效果，成為藝術創作和生成模型應用的重要工具。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記生成式AI技術與應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

24會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/18

Latent Diffusion Model（LDM）

Latent Diffusion Model（LDM）是一種現代深度生成模型，主要應用於高解析度影像生成（如 Stable Diffusion）。它在「潛在空間」（latent space）裡操作擴散過程，以更少資源實現高品質生成。核心架構與原理： • Autoencoder 壓縮：先訓練一

2025/08/18

Latent Diffusion Model（LDM）

2025/08/18

T5（Text-to-Text Transfer Transformer）

T5（Text-to-Text Transfer Transformer）是由 Google AI 團隊於2020年提出的一種基於 Transformer 的自然語言處理模型。它的核心創新是將所有 NLP 任務統一表達為「文本轉文本（text-to-text）」的格式，不論是翻譯、摘要、問答、分類等

2025/08/18

T5（Text-to-Text Transfer Transformer）

2025/08/18

Seq2Seq

Seq2Seq（Sequence-to-Sequence）是一種深度學習架構，專門用來處理可變長度的序列輸入並生成可變長度的序列輸出，特別適合語言翻譯、文本摘要、語音識別等自然語言處理任務。核心架構－Encoder-Decoder • Encoder（編碼器）：將輸入序列逐步讀入，提取其重要

2025/08/18

Seq2Seq

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15