整體的步驟條列如下, 只要看截圖依照順序拉節點下載模型建立就可以
當然會建議就是把一些基礎的說明與概念看完, 畢竟會想用ComfyUI就是想要更細微的控制對吧!
以下節點我都採用英文的, 這樣對國外的文件與教學比較方便, 看官可以很輕鬆地轉換成中文做對照
STEP1
需要用到的節點, 模型, 設定如下:

flux1-dev-Q8_0.gguf
: 這是使用 GGUF 量化格式的 UNet 模型,適用於節省 VRAM 的部署, 根據硬體資源選擇 Q4~Q8 皆可, 不過要畫質, 我個人使用Q8, 在這裡下載- DualCLIPLoader用來載入 prompt 解讀器(CLIP 模型),flux.1-dev 採用雙 CLIP 結構, 這裡使用兩個
clip_l.safetensors
(語言處理用 CLIP),t5xxl_fp8_e4m3fn.safetensors
(T5-XXL 小數浮點格式模型, 也可以用fp16版本看顯卡性能) , 這兩個模型是為 flux 專門調整過的 CLIP 系統,用來接收文字 prompt 並與圖像空間對齊, 在這裡下載 - Load VAE 載入解碼器,用來將潛空間轉換為實際圖像, 這是 autoencoder VAE 模型,flux 系統也有專用版本,建議不要混用其他模型的 VAE, 下載ae.safetensors
為確保 ComfyUI 能正確識別並載入上述模型,請將各個模型文件放置於以下目錄:
- UNet 模型:ComfyUI/models/unet
- CLIP 模型:ComfyUI/models/clip
- VAE 模型:ComfyUI/models/vae
STEP 2

CLIP Text Encode (Positive Prompt) : 將你輸入的正面提示詞(positive prompt)轉換為一個語意向量,用於引導生成模型的圖像內容, 需要連接 DualCLIPLoader
所輸出的 CLIP 模型
FluxGuidance: 這是 flux.1-dev 特有的「語意引導控制模組」,用來調整生成圖片時對 prompt 的依從程度, 建議值範圍為 2.5 ~ 5,預設 3.5, 數值越高代表越強烈依照 prompt 執行,但可能會犧牲圖像自然度, 數值太低則可能導致 prompt 不明顯(更藝術化)



如果想要真實如自己prompt預期的, 3.5是一個不錯的起點 繪畫風格或是抽象風格, 我會從2.0往下調整
Empty Latent Image: 生成一個空的潛空間圖像(latent image),做為圖像生成起始點, 若是圖像重繪或 img2img 模式,會用其他輸入圖替代這個節點
STEP 3 Sampling Core
生圖的核心!

RandomNoise: 產生初始潛空間的隨機噪聲(latent noise),為 diffusion 的起點, noise_seed
: 控制生成圖像的一致性,固定 seed 可重現圖像,點擊「randomize」則每次變動
BasicGuider: 將前面的 FluxGuidance
與 UNet 模型包裝起來,產生一個 guide function 給取樣器, model
連到 UNet GGUF 模型, conditioning
: 來自 FluxGuidance
的語意條件
KSamplerSelect: 選擇 diffusion 採樣演算法(如 euler、ddim、dpm++ 等)sampler_name
: 我這裡用 euler
,屬於較快速又穩定的演算法, 不同取樣器可取得不同風格
BasicScheduler: 控制取樣過程中的時間步長與 denoise 強度
scheduler
: diffusion scheduler 策略(如simple
,karras
,ddim
)steps
: 迭代步數,影響畫質與計算時間,28 為常見平衡值。denoise
: 控制降噪強度,通常設為 1.0,代表完整降噪。
SamplerCustomAdvanced: 這是整合所有 diffusion 流程的最終取樣器, denoised_output
最終潛空間圖像,可送至解碼器(Decode Latent to Image)
連線組裝後的樣子:

STEP 4
顯示產生的圖片

VAE Decode: 將潛空間圖像(latent image)解碼為真實圖像,
samples
: 接收從SamplerCustomAdvanced
輸出的denoised_output
(即潛空間圖像)vae
: 來自Load VAE
的模型(如ae.safetensors
)
Preview Image: 僅作為 UI 顯示用途,若需要保存檔案,需搭配 Save Image
模組, 我是習慣preview, 確定ok再按滑鼠右鍵儲存影像
連連線組裝後的樣子:

測試
產生提示詞可以試試這個ChatGPT助理: https://chatgpt.com/g/g-eMr4bHPkV-flux-1-ai-prompt-generator
測試的image pompt:
close-up portrait of a 20-year-old elven woman, classical fantasy style, inspired by The Lord of the Rings, wearing detailed leather armor with natural textures, facing the camera with a gentle, mysterious smile, pointed elven ears visible, silver-blonde hair flowing gently, realistic human-like skin tone,soft moonlight coming from the side, casting elegant shadows and highlights across her face, subtle glow in her eyes, detailed facial features with youthful elegance, misty forest ambience in the background, cinematic side lighting, photorealistic, shallow depth of field, ultra high resolution, realistic fantasy aesthetic
完整流程

可以跑出圖就大功告成嚕!