用 RTX 4090 在家訓練 Stable Diffusion 模型完整指南

更新 發佈閱讀 6 分鐘

以下是一個 在家用一張 RTX4090 訓練 Stable Diffusion 模型的完整實戰指南

目前很多獨立創作者、AI畫師、遊戲工作室在用的方法。 RTX4090(24GB VRAM)其實非常適合做這件事。 🚀


一、先理解:4090 能做到什麼

GPU:NVIDIA GeForce RTX 4090

能力大概如下:

vocus|新世代的創作平台

原因:

像 Stable Diffusion XL 這種模型本身需要 數百 GPU 訓練。

所以家用方式是:

Base Model
+
微調

二、4090 訓練的最佳方案

推薦架構:

Stable Diffusion XL
+
LoRA

LoRA = Low Rank Adaptation

優點:

  • 訓練快
  • VRAM需求低
  • 模型只有 50–200MB

三、硬體與系統要求

最低配置:

vocus|新世代的創作平台

系統:

Ubuntu 22.04

Windows 11

Linux會更穩定。


四、安裝 AI 訓練環境

安裝 Python:

Python 3.10

建立虛擬環境:

python -m venv sd_env

啟動:

Windows

sd_env\Scripts\activate

Linux

source sd_env/bin/activate

五、安裝訓練框架

目前最常用:

  • kohya-ss

下載:

git clone https://github.com/kohya-ss/sd-scripts
cd sd-scripts

安裝依賴:

pip install -r requirements.txt

安裝 PyTorch:

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

六、下載基礎模型

最常用:

  • Stable Diffusion XL

下載來源:

  • Hugging Face

模型:

sd_xl_base_1.0.safetensors

放到:

models/

七、準備訓練資料集

這是 最重要的一步

資料量建議:

vocus|新世代的創作平台

圖片規格:

1024x1024
PNG / JPG

資料夾:

dataset/
img1.png
img1.txt

八、建立圖片標籤

每張圖片需要 caption。

例:

Tang dynasty swordsman
wuxia warrior
ancient Chinese armor
dramatic lighting

自動標籤工具:

  • BLIP
  • DeepDanbooru

九、開始訓練 LoRA

範例命令:

accelerate launch train_network.py \
--pretrained_model_name_or_path=sdxl \
--train_data_dir=dataset \
--resolution=1024 \
--output_dir=lora \
--network_dim=128 \
--train_batch_size=2 \
--max_train_steps=3000 \
--learning_rate=1e-4

重要參數:

vocus|新世代的創作平台

建議:

30006000 steps

十、4090 訓練時間

以 300 張資料集為例:

vocus|新世代的創作平台

VRAM 使用:

18GB – 22GB

十一、測試模型

生成 UI:

  • AUTOMATIC1111
  • ComfyUI

Prompt:

Tang dynasty wuxia heroine
standing on mount huashan
dramatic lighting

載入 LoRA:

<lora:wuxia_style:1>

十二、進階玩法(高手)

加入:

  • ControlNet

可以控制:

vocus|新世代的創作平台

例如:

劍法姿勢
飛簷走壁
打鬥

十三、4090 能建立什麼 AI 系統

一張 4090 可以建立:

AI 武俠角色生成器
AI 古風場景生成器
AI 漫畫生成器
AI 遊戲角色生成器

甚至可以做:

AI 動畫
AI 漫畫
AI 電影分鏡

十四、4090 創作者典型 workflow

很多 AI 創作者 pipeline:

ChatGPT ↓PromptStable Diffusion

生成圖片ControlNet

控制姿勢Upscale

4K 圖像

十五、特別建議

如果計畫寫 唐玄宗武俠小說,其實可以做一件非常特別的事:

建立 「武俠世界 AI 模型」

資料集:

華山
敦煌
絲路商隊
唐宮
胡人武士
拜火教

角色:

公孫嫣
軋犖山
康延年

最後可以直接生成:

公孫嫣 standing on huashan cliff
Tang dynasty wuxia heroine

這等於 AI 把你的小說世界視覺化



留言
avatar-img
sirius數字沙龍
16會員
396內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/17
下面是一個 完整、實際可操作的「武俠 AI 圖像模型訓練流程」。 這套流程是目前獨立創作者常用的方法:Stable Diffusion + LoRA 微調。 好處是 家用 GPU(如 4090)就能完成。 一、整體架構(武俠 AI 圖像模型) 核心基礎模型: Stable Diffusion XL
Thumbnail
2026/03/17
下面是一個 完整、實際可操作的「武俠 AI 圖像模型訓練流程」。 這套流程是目前獨立創作者常用的方法:Stable Diffusion + LoRA 微調。 好處是 家用 GPU(如 4090)就能完成。 一、整體架構(武俠 AI 圖像模型) 核心基礎模型: Stable Diffusion XL
Thumbnail
2026/03/15
「宇宙渦旋」通常不是正式的單一學術名詞,而是用來形容一種在宇宙尺度上類似渦旋或旋轉缺陷的結構。最接近這個概念的理論物體是: Cosmic string(宇宙弦) 很多物理學家把它比喻為: 宇宙真空中的量子渦旋。 一、直觀理解:宇宙中的「旋轉缺陷」 想像宇宙在非常早期時: 溫度極高
Thumbnail
2026/03/15
「宇宙渦旋」通常不是正式的單一學術名詞,而是用來形容一種在宇宙尺度上類似渦旋或旋轉缺陷的結構。最接近這個概念的理論物體是: Cosmic string(宇宙弦) 很多物理學家把它比喻為: 宇宙真空中的量子渦旋。 一、直觀理解:宇宙中的「旋轉缺陷」 想像宇宙在非常早期時: 溫度極高
Thumbnail
2026/02/06
社群幣(Community Token / Meme Token / DAO Token)是目前最容易、成本最低、成功率最高的一種發幣模式。 實務上你 完全不需要自己做區塊鏈,只要: ✅ 發 ERC-20 / BEP-20 代幣 ✅ 上 DEX(Uniswap / PancakeSwap)
Thumbnail
2026/02/06
社群幣(Community Token / Meme Token / DAO Token)是目前最容易、成本最低、成功率最高的一種發幣模式。 實務上你 完全不需要自己做區塊鏈,只要: ✅ 發 ERC-20 / BEP-20 代幣 ✅ 上 DEX(Uniswap / PancakeSwap)
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
徐導的作品《黃金人生 Crystal》及其探索家族關係和自我覺察的過程。透過舞臺劇,觀眾能夠在幽默中思考家庭議題與自我認同,而創作者自己,也在創作的過程中,面對自我提問和自我質疑,找到自己的出口。
Thumbnail
徐導的作品《黃金人生 Crystal》及其探索家族關係和自我覺察的過程。透過舞臺劇,觀眾能夠在幽默中思考家庭議題與自我認同,而創作者自己,也在創作的過程中,面對自我提問和自我質疑,找到自己的出口。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
遇到臉書自動推播實際大學推廣部的漫畫家講座課程,參加體驗課程後覺得滿有趣的,想學習怎麼畫漫畫的,於是報名了正式課程。畫作業感覺很挫折! 課程很精實,前面1-1.5小時,主要是日本老師示範,後面留半小時逐一檢討作業。
Thumbnail
遇到臉書自動推播實際大學推廣部的漫畫家講座課程,參加體驗課程後覺得滿有趣的,想學習怎麼畫漫畫的,於是報名了正式課程。畫作業感覺很挫折! 課程很精實,前面1-1.5小時,主要是日本老師示範,後面留半小時逐一檢討作業。
Thumbnail
當我們身為讀者時,可以很任性的看自己想看的部分,選擇自己想要的次類型,但編劇與小說家是創作領域的專家,自然需要知道為什麼要創作,要創作出什麼作品,要借用作品傳達出什麼樣的資訊,獲得資訊的人們所做出的反應是否有達到創作所想要的效果,這都是創作者需要面對的自問自答。
Thumbnail
當我們身為讀者時,可以很任性的看自己想看的部分,選擇自己想要的次類型,但編劇與小說家是創作領域的專家,自然需要知道為什麼要創作,要創作出什麼作品,要借用作品傳達出什麼樣的資訊,獲得資訊的人們所做出的反應是否有達到創作所想要的效果,這都是創作者需要面對的自問自答。
Thumbnail
「我的角色就是會/不會這樣做!」 我想是許多GM害怕聽到的話。 當聽到這句話時,許多時候也是場外氣氛處於一觸即發的狀況,所以我們GM帶團時,會極力祈禱避免遇上這種狀況。 也因此,當GM轉為當玩家時,或許也會提醒自己「不要成為這種玩家!」。 只是,真的不能堅持角色的想法或設定嗎?
Thumbnail
「我的角色就是會/不會這樣做!」 我想是許多GM害怕聽到的話。 當聽到這句話時,許多時候也是場外氣氛處於一觸即發的狀況,所以我們GM帶團時,會極力祈禱避免遇上這種狀況。 也因此,當GM轉為當玩家時,或許也會提醒自己「不要成為這種玩家!」。 只是,真的不能堅持角色的想法或設定嗎?
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
這是一篇對太宰的角色分析筆記。算是自用加分享。如果有幫到需要的人更好^^
Thumbnail
這是一篇對太宰的角色分析筆記。算是自用加分享。如果有幫到需要的人更好^^
Thumbnail
順利完成今年第一部短篇《寫作遊戲》後的碎碎念。 如果你正好也走在創作的路上,這篇或許會對你有點助益。
Thumbnail
順利完成今年第一部短篇《寫作遊戲》後的碎碎念。 如果你正好也走在創作的路上,這篇或許會對你有點助益。
Thumbnail
這篇是語氣角色創作筆記的開場文。從《我才不是你養的貓》到《彼得與我》,我一直在做的,是「角色不跑掉」的語氣導戲。這裡將展開一個角色宇宙,每位角色都會逐一登場。
Thumbnail
這篇是語氣角色創作筆記的開場文。從《我才不是你養的貓》到《彼得與我》,我一直在做的,是「角色不跑掉」的語氣導戲。這裡將展開一個角色宇宙,每位角色都會逐一登場。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News