方格子 vocus

[深度學習]利用Stable Diffusion輸入文字生成圖片

螃蟹_crab

發佈於AI深度學習筆記

2024/07/21 更新2024/07/21 發佈閱讀 5 分鐘

本文下方連結的文章，利用Stable Diffusion生成512 * 512大小的圖片。

輸入的文字是 dog flying in space，此模型需輸入英文句子才會準確生成。

Stable Diffusion生成的圖片

參考文獻

連結該作者在Hugging Face公開的模型去做使用。

本文是在Colab上執行。Python版本及套件版本

Python version: 3.10.12
diffusers version: 0.29.2
transformers version: 4.42.4
scipy version: 1.14.0

程式範例

1.安裝套件

!pip install --upgrade diffusers transformers scipy &> /dev/null

2. 程式碼

短短幾行程式碼，即可載入Stable Diffusion模型來生成圖片。

只要修改prompt就可以改變要生成的圖片。

import torch
from diffusers import StableDiffusionPipeline

#設定模型 ID 和設備
model_id = "CompVis/stable-diffusion-v1-4"
device = "cuda"

#載入模型
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
#torch_dtype=torch.float16 ：單精度，較不佔記憶體

#生成圖像的描述
prompt = "dog flying in space"

#生成圖片
image = pipe(prompt).images[0]  ##預設圖片大小：512*768
#儲存圖片
image.save("dog_flying_in_space.png")

'''
高度和寬度都是8的倍數
低於 512 可能會導致影像品質降低, 超過 512 會出現重複影像區域（遺失全域一致性）
非正方形影像最佳方法：一個維度為 512px，另一維度大於512px。
'''

程式碼詳細說明

1. 導入相關套件
```
import torch
from diffusers import StableDiffusionPipeline
```
- import torch：引入 PyTorch 庫，這是用於深度學習的熱門框架。
- from diffusers import StableDiffusionPipeline：從 diffusers 庫中引入 StableDiffusionPipeline，這是用於圖像生成的管道。

2. 設定模型和設備
```
model_id = "CompVis/stable-diffusion-v1-4"
device = "cuda"
```
- model_id：指定要使用的模型 ID，此處是 CompVis/stable-diffusion-v1-4。
- device：此處設為 "cuda"，表示使用 GPU。

3. 載入模型
```
# torch_dtype=torch.float16 ：單精度，較不佔記憶體
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
```
- StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)：從預訓練模型載入管道，並設定 torch_dtype 為 torch.float16。使用 float16 可以減少記憶體佔用。
- 這行程式碼會從 Hugging Face 下載並載入 CompVis/stable-diffusion-v1-4 模型，然後你可以使用這個模型進行圖像生成任務。
- pipe.to(device)：指定設備（GPU）。

4. 生成圖像

prompt = "dog flying in space"

# 預設圖片大小：512*768
'''
高度和寬度都是8的倍數
低於 512 可能會導致影像品質降低, 超過 512 會出現重複影像區域（遺失全域一致性）
非正方形影像最佳方法：一個維度為 512px，另一維度大於512px。
'''
image = pipe(prompt).images[0]

prompt = "dog flying in space"：設置文本提示詞，這是生成圖像的描述。
image = pipe(prompt).images[0]：使用管道生成圖像。 pipe(prompt) 會返回一個結果對象， images[0] 表示取第一張生成的圖像。

5. 保存圖像
```
image.save("astronaut_rides_horse.png")
```
- image.save("astronaut_rides_horse.png")：將生成的圖像保存為 astronaut_rides_horse.png 文件。

若要在本地端跑，需確保是有網路的，才可以從Hugging Face 下載並載入模型喔

#StableDiffusion

#深度學習

#文字生成圖片

螃蟹_crab的沙龍AI深度學習筆記生成模型

留言

螃蟹_crab的沙龍

163會員

320內容數

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。興趣是攝影，踏青，探索未知領域。人生就是不斷的挑戰及自我認清，希望老了躺在床上不會後悔自己什麼都沒做。

螃蟹_crab的沙龍的其他內容

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇

呈上篇介紹如何訓練模型，此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇生成的結果生成的圖片大小會根據，當初設置的生成器輸出大小來決定，當你使用生成對抗網絡（GAN）生成圖像時，生成器模型的最後一層通常會決定生成圖

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_訓練篇

本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。

2024/07/27

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_訓練篇

本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。

2024/07/26

[深度學習][Python]利用訓練完成的GAN模型來生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇相較之下CNN的GAN生成的效果比較好，但模型也相對比較複雜，訓練時間花的也比較

2024/07/26

[深度學習][Python]利用訓練完成的GAN模型來生成圖片_生成篇

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11