Stable Diffusion

更新 發佈閱讀 2 分鐘

Stable Diffusion 是一個基於潛在擴散模型(Latent Diffusion Model, LDM)的文字到影像的生成模型,它能從文字描述自動生成高品質、高解析度的圖像。這個模型由 CompVis 團隊與 Stability AI 等合作開發,並基於 LAION 大型開源圖像語言對齊數據集訓練。

核心架構特色:

潛在擴散模型:Stable Diffusion 先通過 autoencoder 將高解析度圖像壓縮到一個較低維度的潛在空間,擴散過程在這個潛在空間中進行,減少計算量和記憶體需求。

條件化文本嵌入(CLIP):輸入的文字透過 CLIP 模型產生語義嵌入,這個文本嵌入作為條件融合進入擴散模型,引導圖像生成與文字相匹配。

U-Net 結構:用於預測潛在空間中噪聲的 U-Net,經過逐步去噪以合成完整圖像。

強大且高效:相較於直接在像素空間生成,Stable Diffusion 在潛在空間運作使計算更加高效,同時保持圖像品質。

優點:

可在標準 GPU 上以較低成本執行。

支援高解析度(如512x512或更大格式)影像生成。

具備靈活的條件控制能力,可生成多樣化風格和主題的圖像。

開源且廣泛應用於藝術創作、遊戲設計、視覺效果製作等領域。

運作流程簡述:

1. 使用 CLIP 編碼器將文字轉換成上下文向量。

2. 將潛在噪聲向量與上下文向量一起輸入擴散 U-Net。

3. 網路逐步去除潛在空間的噪聲,重建出符合文字描述的潛在向量。

4. 利用解碼器將潛在向量轉回高解析度圖像。

總結:

Stable Diffusion 是目前生成式 AI 領域非常受注目的文字到圖像模型,結合潛在擴散與語義條件化,實現了資源節省且畫質優秀的效果,成為藝術創作和生成模型應用的重要工具。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
24會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/18
Latent Diffusion Model(LDM)是一種現代深度生成模型,主要應用於高解析度影像生成(如 Stable Diffusion)。它在「潛在空間」(latent space)裡操作擴散過程,以更少資源實現高品質生成。 核心架構與原理: • Autoencoder 壓縮:先訓練一
2025/08/18
Latent Diffusion Model(LDM)是一種現代深度生成模型,主要應用於高解析度影像生成(如 Stable Diffusion)。它在「潛在空間」(latent space)裡操作擴散過程,以更少資源實現高品質生成。 核心架構與原理: • Autoencoder 壓縮:先訓練一
2025/08/18
T5(Text-to-Text Transfer Transformer)是由 Google AI 團隊於2020年提出的一種基於 Transformer 的自然語言處理模型。它的核心創新是將所有 NLP 任務統一表達為「文本轉文本(text-to-text)」的格式,不論是翻譯、摘要、問答、分類等
2025/08/18
T5(Text-to-Text Transfer Transformer)是由 Google AI 團隊於2020年提出的一種基於 Transformer 的自然語言處理模型。它的核心創新是將所有 NLP 任務統一表達為「文本轉文本(text-to-text)」的格式,不論是翻譯、摘要、問答、分類等
2025/08/18
Seq2Seq(Sequence-to-Sequence)是一種深度學習架構,專門用來處理可變長度的序列輸入並生成可變長度的序列輸出,特別適合語言翻譯、文本摘要、語音識別等自然語言處理任務。 核心架構-Encoder-Decoder • Encoder(編碼器):將輸入序列逐步讀入,提取其重要
2025/08/18
Seq2Seq(Sequence-to-Sequence)是一種深度學習架構,專門用來處理可變長度的序列輸入並生成可變長度的序列輸出,特別適合語言翻譯、文本摘要、語音識別等自然語言處理任務。 核心架構-Encoder-Decoder • Encoder(編碼器):將輸入序列逐步讀入,提取其重要
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本週設計新聞: Stability AI 推出 Discord 服務 / Apple iPad 廣告炎上 / TAIWAN 品牌形象 3.0 / Krea AI 推出影片生成功能 / 總統就職禮賓人員服裝
Thumbnail
本週設計新聞: Stability AI 推出 Discord 服務 / Apple iPad 廣告炎上 / TAIWAN 品牌形象 3.0 / Krea AI 推出影片生成功能 / 總統就職禮賓人員服裝
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News