Z-Image-Turbo 二次元人物 LoRA 訓練經驗完整分享

更新 發佈閱讀 25 分鐘

最近在嘗試訓練 Z-Image-Turbo 的二次元人物 LoRA,我發現比起單純操作工具,更重要的是你清楚知道:「你到底想讓模型學到什麼?」。這篇文章將以《U149》中的「橘愛麗絲」為例,完整分享我從零到一的訓練經驗。

我不只會分享使用了哪些工具與基礎流程,更會深入探討我在目標制定參數調整資料蒐集與標記,以及最後如何選擇模型時的策略與思考。我認為唯有確立了目標,才不會在調整過程中像隻無頭蒼蠅,漫無目的地修改卻不見改進。雖然這篇是以 Z-Image-Turbo 為主,但其中的許多邏輯,其實在其他模型架構的 LoRA 訓練上應該也可以共用。

為了方便大家閱讀,我將內容分為三個部分:

  • 第一部分(新手教學):如果沒有訓練過 Z-Image-Turbo LoRA,想從頭開始建立完整的訓練流程。
  • 第二部分(進階迭代):如果你已經有訓練經驗,但目前正遇到瓶頸,想學習如何透過目標導向來提升品質。
  • 第三部分(快速重現):如果你單純想直接使用訓練好的模型,或重現我的訓練結果。
成果展示

成果展示

成果展示

成果展示

I. 第一輪訓練:確認方向與流程建置

角色選定

我們想要訓練的是來自《偶像大師 灰姑娘女孩 U149》 的橘愛麗絲,一位僅有 12 歲,個性非常認真,努力想出道為偶像的角色。

Z-Image-Turbo 是一個通用的模型,通常對於特定人物的認識有限,但還是要先確認一下原生的 Z-Image-Turbo 是否有辦法透過單純的 Prompt,就能生成出我們要的角色

可以使用這個 ComfyUI Workflow, 關掉 LoRA Node,以簡單的 Prompt 來測試,像是 anime-style illustration, <人名>,人名分別代入英文(Arisu Tachibana)、中文(橘愛麗絲)、日文(橘ありす)來產生圖片,如果生成結果都沒有符合該角色形象,那就可以進入下一階段。

人名分別帶入英文、中文、日文的結果

人名分別帶入英文、中文、日文的結果

資料蒐集

二次元圖片最完整的來源之一是 Danbooru,在搜尋欄輸入角色名稱,像是 tachibana_arisu,就可以找到很多該角色的圖片。不過在瀏覽一陣子之後,我們會發現不知道該選用哪些圖片,並且進行有效率的篩選。因此,需要擬定資料蒐集的標準與進行有效率的篩選流程

資料蒐集標準:

  1. 圖片中只有角色一個人,避免模型學習時搞混
  2. 圖片長度與寬度都至少 1024 px,確保模型在訓練後仍然能生成高畫質的圖片
  3. 彩色圖片,不要是單色或漫畫
  4. 圖片不要有任何文字,避免降低原生 Z-Image-Turbo 的文字渲染能力
  5. 每張圖片都穿同一套角色最經典的衣服,符合該角色的形象,也讓模型更容易學習
  6. 有各種鏡位與角度的圖片(例如:全身、上半身、特寫鏡頭)

流程上,我們先用 imgbrd-grabber 這個工具,在它的搜尋欄輸入以下條件做初步篩選,並且批次下載這些圖片到電腦本地端:

tachibana_arisu solo height:>=1024 width:>=1024 -monochrome -comic
使用 imgbrd-grabber 搜尋的結果

使用 imgbrd-grabber 搜尋的結果

這些條件關鍵字分別代表:

  • solo:必須是一個人,符合條件 1
  • height:>=1024 width:>=1024:長寬都必須至少 1024 px,符合條件 2
  • -monochrome:不要單色,符合條件 3
  • -comic:不要漫畫,符合條件 3 跟部份的 4

接下來,條件 5(同一套服裝)與條件 6(多種鏡頭)就需要人工篩選。因為已經下載到電腦,只要確認服裝(像我們這是選動畫裡愛麗絲最常穿的藍色洋裝),用肉眼篩選其實是滿快的。

如果發現某些圖片不符合條件 4(沒有任何文字),可以手動塗掉或捨棄不用。如果覺得圖片數量不夠,可以放寬 imgbrd-grabber 的搜尋條件,例如最低長寬改成 768。

對於第一輪訓練,是要確認訓練後模型是否能大致正確描繪出角色形象,細節不是重點,所以不用太過在意訓練圖片的品質(例如手有沒有畫的正確),畫風不一致也沒關係,數量只要 10 - 15 張就足以,而且不需要做任何資料標記

第一輪訓練所選的圖片

第一輪訓練所選的圖片

附註:我使用這些圖片來訓練模型,都是基於個人興趣與研究用途,並沒有用模型或其生成的圖片來營利或做有害的事情。如果你對於版權相關問題有擔憂的話,也是盡量警慎使用為上。

訓練模型

我們用目前評價滿好的工具 Ostris AI Toolkit,具體的操作流程細節推薦看這部影片以及這篇文章,這裡僅分享關鍵的資訊。

先創一個資料集,名稱可以是角色名稱 + 版本,例如 arisu_tachibana_v1_0

raw-image

再來開一個訓練任務。同樣的,第一輪的訓練不需要太拘泥細節,訓練參數都先用工具預設值的就好,只有幾個設定修改如下:

  • Training Namearisu_tachibana_v1_0
  • Trigger WordzzArisuTachibana
  • Model ArchitectureZ-Image-Turbo (w/ Training Adapater)
  • Sample Prompts:刪掉預設的 10 個,加入 zzArisuTachibana, simple backgroundzzArisuTachibana, sitting on a chair in a park 這 2 個
raw-image
raw-image

Training Name 代表這次訓練任務的名稱,可以跟資料集同樣的命名邏輯。

Model Architecture 代表的是 Base Model(Z-Image-Turbo)的模型架構,不是指 LoRA。

如果有填 Trigger Word,系統會在每張訓練圖片的標記文字最前面加上指定的文字。由於目前沒有做過任何資料標記,代表我們希望讓 LoRA 學習到的是「zzArisuTachibana 這個單字對應到訓練圖片的內容,也就是愛麗絲的外表」。至於為什麼要在 ArisuTachibana 前面加上 zz,只是避免原生 Z-Image-Turbo 對於 ArisuTachibana 這個單字所學習到的概念被 LoRA「汙染」,如果不在意這件事情的話,不加上 zz 或用其他關鍵詞應該也是可以的。

至於 Sample Prompts,是訓練模型的過程中,會定期用這些 Prompt 來產生圖片,是用來確認確認模型是否正確收斂的重要依據。這個記得要放 Trigger Word,因為系統不會自動加。

這次訓練總共會跑 3,000 個 Steps,每 250 個 Steps 產生一次範例圖片,可以看到模型有慢慢地學習到愛麗絲應有的可愛形象。

raw-image
raw-image

這次訓練也是每 250 Steps 存一次模型檔案,但只會保留最近的 4 個 + 最後 1 個,不用想太多就直接用最後 1 個(Steps 3,000)來做測試,檔名應該會叫 arisu_tachibana_v1_0.safetensors

硬體限制的解決方式

如果你在訓練時遇到 GPU 的 VRAM 不夠,或是訓練時間非常長,那可以考慮租用像是 Runpod 的 GPU 雲端服務。在上面開一個 RTX 5090 的 Pod,Template 選擇 AI Toolkit - ostris - ui - official,即可馬上開始訓練,連軟體安裝都不用。以目前的設定來說,大概 1 - 2 小時就可以訓練完成,花費約 1 - 2 美金,是個可負擔的選項。

附註:文章後面會說明如何修改參數,縮短訓練時間。
raw-image

測試模型

使用同樣的 ComfyUI Workflow 來測試模型,只要將 LoRA Node 的模型改成剛剛訓練好的檔案,然後就可以測試各種不同的 Prompt 之下的愛麗絲是否也符合形象。到此,完成第一輪的訓練!

第一輪模型的測試結果

第一輪模型的測試結果

II. 重複訓練:不斷改進與迭代

擬定目標

完成第一輪的模型訓練之後,接下來想要改進模型的品質。在知道「如何」改進之前,更重要的是清楚知道我們要改進「什麼」,定義何謂「好的品質」。我們可以透過比較的方式來讓這些指標更具體。

與原生 Z-Image-Turbo 比較

第一個比較對象,是沒有 LoRA 的原生 Z-Image-Turbo(在 ComfyUI 把 LoRA Node 關掉即可)。我們同樣的 Prompt 與 Seed,分別用我們訓練好 LoRA 跟比較對象生成圖片,觀察兩者的差別。可以看出雖然我們的 LoRA 學習到如何畫出愛麗絲的外型,但卻犧牲不少背景的細節豐富度。

左圖:加上 LoRA,右圖:沒有加 LoRA。Prompt:amazing anime-style digital art, full body, zzArisuTachibana, smile, beach, sea, masterpiece, best quality

左圖:加上 LoRA,右圖:沒有加 LoRA。Prompt:amazing anime-style digital art, full body, zzArisuTachibana, smile, beach, sea, masterpiece, best quality

左圖:加上 LoRA,右圖:沒有加 LoRA。Prompt:amazing digital art, anime style, full body, zzArisuTachibana, sleepy eyes, snowy street, sunlight, cinematic lighting, highly detailed background, masterpiece, best quality

左圖:加上 LoRA,右圖:沒有加 LoRA。Prompt:amazing digital art, anime style, full body, zzArisuTachibana, sleepy eyes, snowy street, sunlight, cinematic lighting, highly detailed background, masterpiece, best quality

與自己比較

我們可以同樣的 Prompt、不同的 Seed,來測試模型是否能穩定畫出正確的愛麗絲外型。我發現模型經常會畫錯一些細節。以下面的這個例子來說,左邊有正確畫出愛麗絲的服裝,中間頭髮上的緞帶少了部分、衣服中間扣子旁的藍色不夠深,右邊則是袖子顏色畫錯了。

Prompt:anime-style illustration, upper-body shot, zzArisuTachibana, smile, park, masterpiece, best quality

Prompt:anime-style illustration, upper-body shot, zzArisuTachibana, smile, park, masterpiece, best quality

另外也可以測試模型是否夠有「彈性」,試著讓愛麗絲穿上不同的服裝。下面的案例也是用同樣的 Prompt、不同的 Seed,可以看出雖然換成了體育服,都還是多少含有她原服裝的「影子」,例如上衣有扣子或奇怪的線條。

Prompt:An anime-style amazing upper-body illustration of zzArisuTachibana against white background. She is wearing her white short-sleeved gym shirt with red trim, paired with red gym shorts.

Prompt:An anime-style amazing upper-body illustration of zzArisuTachibana against white background. She is wearing her white short-sleeved gym shirt with red trim, paired with red gym shorts.

確立目標

從上面的比較分析後,我們確立幾個主要目標:

  1. 預設情況下,模型能穩定畫出正確的愛麗絲,包含人物外表、她那套藍色的經典服裝、以及固定的風格
  2. 能保有原生 Z-Image-Turbo 的背景細節豐富
  3. 模型有足夠彈性能客製化,例如能讓愛麗絲穿上其他服裝,服裝沒有經典服裝的「影子」

接下來,我們以第一輪的模型作為 Baseline,不斷的重複訓練、調整,往目標前進。

調整訓練參數

Ostris AI Toolkit 的訓練參數很多,我非常推薦先仔細閱讀 RunComfy 的這篇這篇文章,可以更全面的了解這些參數所代表的意義。我這裡列出我實際有修改的參數,其他基本上都是用工具預設的。

附註:我這裡的參數有些是從別人經驗看來的,有些自己有做過比較測試,不一定適合所有的資料集,你都可以再自行調整。

QUANTIZATION 與 Low VRAM

QUANTIZATIONTransformerText Encoderfloat8 改為 None,代表 Based Model 不開啟量化訓練,保持 Based Model 最高的精度。同時可以關掉 Low VRAM 選項,讓訓練速度稍微快點。這些選項可能會需要超過 24GB VRAM 的 GPU,如果有硬體限制可以看這篇文章上面的《硬體限制的解決方式》

TARGET

TARGETLinear Rank32 改成 16,讓 LoRA 的 Model Capacity 降低一點,減少 Overfitting 的可能性。以目前大部分人訓練 人物 LoRA 的經驗來說,這個大概 8 - 16 似乎都還可以。

SAVE

Max Step Saves to Keep4 改成 12,讓 Steps 從 250 到 3,000 的模型檔案都被存下來,可以更有彈性的選擇要用哪個 Steps 的模型,而且跟 Sample Prompts 的頻率同步,方便我們做模型選擇的決定。

TRAINING

如果 GPU VRAM 足夠的話,Batch Size 可以從 1 改成 2(如果訓練圖片數量夠多的話,可以再提高)。

另外,Timestep BiasBalanced 改成 Low Noise,我發現這個選項的改變對保留背景細節滿有幫助的,下面兩張圖是我固定其他參數,只有這個參數從 Balanced 換成 Low Noise 的差別。

左圖:Balanced,右圖:Low Noise。Prompt:masterpiece, best quality, amazing digital art, zzArisuTachibana, brown hair, blue bow, blush, smile, wink, water, own hands together, water ripples, cinematic lighting, volumetric lighting, atmospheric glow, complex contrast, masterpiece, best quality

左圖:Balanced,右圖:Low Noise。Prompt:masterpiece, best quality, amazing digital art, zzArisuTachibana, brown hair, blue bow, blush, smile, wink, water, own hands together, water ripples, cinematic lighting, volumetric lighting, atmospheric glow, complex contrast, masterpiece, best quality

左圖:Balanced,右圖:Low Noise。Prompt:masterpiece, best quality, amazing digital art, full body, zzArisuTachibana, brown hair, blue bow, blue dress, naughty, heavy snowy street, sunlight, cinematic lighting, volumetric lighting, atmospheric glow, complex contrast, detailed background, masterpiece, best quality

左圖:Balanced,右圖:Low Noise。Prompt:masterpiece, best quality, amazing digital art, full body, zzArisuTachibana, brown hair, blue bow, blue dress, naughty, heavy snowy street, sunlight, cinematic lighting, volumetric lighting, atmospheric glow, complex contrast, detailed background, masterpiece, best quality

模型生成圖片可以想像成一步一步去噪的過程,早期的步數的會讓圖片整體變動比較大,主要決定全局結構,而後期的步數變動會縮小,主要決定精細細節。Timestep Bias 改成 Low Noise 的意義是讓模型多學習一點後期步數的細節知識,例如人物臉部、衣服細節,其他全局的資訊則盡量(例如背景、布局)保留原始 Based Model 的能力。

模型生成圖片從 High Noise 到 Low Noise 的示意圖(圖片來源:Gemini 生成)

模型生成圖片從 High Noise 到 Low Noise 的示意圖(圖片來源:Gemini 生成)

DATASETS

Resolutions 關掉 7681024,只留下 512,這個可以降低 GPU VRAM 需求,而且大幅縮短訓練時間。從別人的經驗以及我自己的實測,保留 512 就可以讓模型學習得很好,不太需要更高的 Resolution。另外,可以開啟 Cache Latents 選項,訓練速度會稍微快些。

附註:Resolutions 是指模型在訓練會 Resize 圖片到某個 Bucket Size,不是指原圖的大小,原圖還是至少 1024px 應該會比較好。

完整參數列表

下面秀出我實際有改的參數,供參考。

raw-image
raw-image
raw-image

改善訓練圖片

這裡分享我走過的坑,以及最後嘗試出最可行的路。

從 Danbooru 挑選訓練圖片

我曾經加入過更多變化的圖片,例如有不同服裝的愛麗絲,反而讓模型訓練不穩定,品質變差,而且還更難穩定畫出那套藍色經典衣服。

左:第一輪的模型,右:加上不同服裝圖片後訓練的模型。Prompt:anime-style illustration, upper-body shot, zzArisuTachibana, smile, park, cinematic lighting, volumetric lighting, atmospheric glow, complex contrast, detailed background, masterpiece, best quality

左:第一輪的模型,右:加上不同服裝圖片後訓練的模型。Prompt:anime-style illustration, upper-body shot, zzArisuTachibana, smile, park, cinematic lighting, volumetric lighting, atmospheric glow, complex contrast, detailed background, masterpiece, best quality

我也曾經仔細檢查圖片手掌、手指這一類的人物細節,刪掉畫得比較簡略的,加入比較豐富的圖片,結果稍微有改進但沒有太明顯。而且也發現,不論如何調整資料集,仍然都會有服裝容易不一致的問題發生。

raw-image

我猜測可能的原因,來自從 Danbooru 蒐集資料的限制:圖片來自各個畫師,很難蒐集到同一個固定風格,而且品質又夠高的圖片。不同畫師之間的畫風差異很大,而且即使是愛麗絲的同一套服裝,不同人畫的細節會不同。這個限制可能「讓模型穩定畫人物外型」的目標比較難達成。

所以,我決定嘗試別的方法。

使用 Nano Banana Pro 產生訓練圖片

Gemini 的 Nano Banana Pro,是目前(2026 年 1 月)最強大的 AI 影像生成模型之一。它生成的圖片,不論是人物或背景細緻度都很高,光影渲染也很有水準,而且能讓同一個人物在不同圖片之中,保持很高的一致性(不論是人物外表或服裝)。

我嘗試用 Nano Banana Pro 生成 15 張愛麗絲的圖片作為資料,發現訓練出來的 LoRA,生成圖片的背景細節跟光影都很好,人物細節與畫風都不會變化太大,唯一缺點就是整體風格比較「普通」、「沒特色」一點。

左:Danbooru 資料集模型產生的圖片,中:Nano Banana Pro 資料集模型產生的圖片,右:原生 Z-Image-Turbo。Prompt:amazing anime-style illustration, zzArisuTachibana, upper-body shot, smile, sea background, sunset, cinematic lighting, masterpiece, best quality

左:Danbooru 資料集模型產生的圖片,中:Nano Banana Pro 資料集模型產生的圖片,右:原生 Z-Image-Turbo。Prompt:amazing anime-style illustration, zzArisuTachibana, upper-body shot, smile, sea background, sunset, cinematic lighting, masterpiece, best quality

左:Danbooru 資料集模型產生的圖片,中:Nano Banana Pro 資料集模型產生的圖片,右:原生 Z-Image-Turbo。Prompt:amazing anime-style illustration, zzArisuTachibana, upper-body shot, pout, park, aesthetic cafe with morning sunlight, cinematic lighting, masterpiece, best quality

左:Danbooru 資料集模型產生的圖片,中:Nano Banana Pro 資料集模型產生的圖片,右:原生 Z-Image-Turbo。Prompt:amazing anime-style illustration, zzArisuTachibana, upper-body shot, pout, park, aesthetic cafe with morning sunlight, cinematic lighting, masterpiece, best quality

這裡分享一下我用 Nano Banana Pro 產生訓練圖片的方法。我先從現有的資料集拿 4 張參考圖片,輸入以下 Prompt,讓它產生一張全身的「定裝照」。

Using the images I provided, create a high-quality, full-body, anime-style portrait of the character against a pure white background. The character should perfectly retain the features of the reference images. The image should have delicate lines, rich color gradations, and a master-level anime aesthetic.

The character is 12 years old, a sixth-grade student, and 141 cm tall.
raw-image

接下來輸入以下 Prompt,帶入不同的 <表情><動作><鏡位><場景>,讓 Nano Banana Pro 根據定裝照,產生有變化的圖片。

Maintain the same character design, drawing style, and clothing, but adjust as follows: <表情> x <動作> x <鏡位> x <場景>.

There is no one else in the picture.
Do not render any text in the image.
raw-image

重複產生 14 次有變化性的圖片(修改同個對話,而不是多輸入一個對話,避免越後面可能會「走歪」),加上第一張定裝照,就製作好訓練資料集了。

用 Nano Banana Pro 製作好的訓練資料集

用 Nano Banana Pro 製作好的訓練資料集

如果你沒有訂閱付費的 Gemini Pro 的話,每天能產生的圖片會相當有限。或許可以試試其他可以輸入圖片的高品質開源模型(而且更有機會讓圖片風格變得更「有特色」),或是參考這篇文章,如何從動漫影片來蒐集一致性的高品質訓練圖片。

標記訓練資料

目前還沒做任何資料標記,我們僅用 Trigger Word 來讓模型學習到 zzArisuTachibana 是愛麗絲外型的這個概念,但即使是用 Nano Banana Pro 這樣一致性很高的資料訓練出來的模型,偶爾還是會產生服裝不對的圖片。

模型產生錯誤服裝的範例

模型產生錯誤服裝的範例

在使用模型時(Inference 階段) ,我們可以在 Prompt 加上關鍵的人物特徵,例如 blue dress。要如何讓模型知道穿愛麗絲的藍色洋裝應該長怎樣呢?如果像目前這樣不做任何標記,模型只是依靠自身的能力來學會這些「隱含知識」,但如果我們在訓練資料集加上 blue dress 這個標記,就可以更明確的告訴模型愛麗絲的藍色洋裝應有的樣子,讓模型的結果更穩定。這是所謂的 Feature Disentanglement 概念。

在這樣的概念下,我仔細觀察愛麗絲的圖片後,訂下標記的制定策略,將人物重要的特徵分成:

  • 長相:zzArisuTachibana(整體外表)、blue hair bow(頭上藍色的緞帶,愛麗絲的重要特色)、sidelocks(髮型)
  • 整體服裝:blue dresspleated skirtshort sleeveswhite collarbuttonsbrown belt
  • 腳與鞋子:white socksbrown loafers
長相其實可以還可以加上頭髮,例如 brown hairlong hair,但我發現目前這樣在大部分情況已經夠穩定了,就沒有再做修改

要如何確認制定的關鍵字是否正確?一個方法是,輸入這些關鍵字給原生的 Z-Image-Turbo 產生圖片看看,如果整體感覺符合就沒問題。

右邊是訓練資料中的愛麗絲,左邊是原生 Z-Image-Turbo 產生的圖片,Prompt:anime, zzArisuTachibana, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt, white socks, brown loafers

右邊是訓練資料中的愛麗絲,左邊是原生 Z-Image-Turbo 產生的圖片,Prompt:anime, zzArisuTachibana, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt, white socks, brown loafers

除了人物特徵,我還有標記一些關鍵資訊:

  • 繪圖風格:anime(動漫風格)
  • 特殊動作或姿勢:例如 casting a magic spellholding a cotton candy
  • 背景環境:例如 blue sky and sun-drenched parklight brown background

至於鏡位、光影、常見的動作與姿勢,我就沒有標記,一來是怕會標記錯誤(反而可能會讓模型學不好),一來是訓練圖片的多樣性應該是足夠的,讓模型自行去理解這些通用的構圖規律。

這張範例圖片的標記為:anime, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt, holding a cotton candy, amusement park during the day

這張範例圖片的標記為:anime, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt, holding a cotton candy, amusement park during the day

用這些標記資料訓練模型後,在使用模型時,Prompt 記得適時加上這些關鍵字,例如:

  1. 特寫鏡頭:只需要「長相」跟「整體服裝」的部分關鍵字
  2. 牛仔鏡頭(膝蓋以上):需要「長相」跟「整體服裝」的所有關鍵字
  3. 全身照:還要再加上「腳與鞋子」的關鍵字

從下面的幾個範例可以看出,透過訓練資料的標記加上使用時 Prompt 的關鍵字,不同圖片中的服裝都相當有一致性。

範例:特寫鏡頭。Prompt:amazing digital illustration, white background, anime, close-up shot, zzArisuTachibana, blue hair bow, sidelocks, blue dress, short sleeves, white collar, buttons

範例:特寫鏡頭。Prompt:amazing digital illustration, white background, anime, close-up shot, zzArisuTachibana, blue hair bow, sidelocks, blue dress, short sleeves, white collar, buttons

範例:牛仔鏡頭(膝蓋以上)。Prompt:amazing digital illustration, white background, anime, zzArisuTachibana, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt

範例:牛仔鏡頭(膝蓋以上)。Prompt:amazing digital illustration, white background, anime, zzArisuTachibana, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt

範例:全身照。Prompt:amazing digital illustration, anime, zzArisuTachibana, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt, white socks, brown loafers, park

範例:全身照。Prompt:amazing digital illustration, anime, zzArisuTachibana, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt, white socks, brown loafers, park

範例:牛仔鏡頭(膝蓋以上)。Prompt:amazing digital illustration, white background, anime, zzArisuTachibana, blue hair bow, sidelocks, blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt

Z-Image-Turbo 的 Prompt 支援自然語言風格(Natural Language Style),雖然我們資料是用標籤式的(Tag List Style)標記,但訓練出來的 LoRA 模型仍然也可以輸入自然語言風格的 Prompt。

範例:用自然語言風格輸入所產生的圖片。Prompt:Draw an amazing anime-style digital illustration of zzArisuTachibana against colorful background. She has sidelocks and blue hair bow. She wears blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt.

範例:用自然語言風格輸入所產生的圖片。Prompt:Draw an amazing anime-style digital illustration of zzArisuTachibana against colorful background. She has sidelocks and blue hair bow. She wears blue dress, pleated skirt, short sleeves, white collar, buttons, brown belt.

做這些標記還有另外的好處,就是比較能避免 Concept Bleeding 的狀況發生,也就是某些概念在加上 LoRA 後被過於「侵蝕」。例如我們想讓愛麗絲穿其他服裝,資料有標記 brown belt 所訓練出來的模型,比較不會自動在圖片中加上皮帶(因為模型學習到愛麗絲的皮帶應該是長什麼樣子,所以比較能有機會「想像」她沒有皮帶的樣子)。

左圖:有做標記的模型所產生的圖片,右圖:沒做標記的模型所產生的圖片。Prompt:amazing digital illustration, white background, anime, upper body, zzArisuTachibana, blue bow, sidelocks. She is wearing her white short-sleeved gym shirt with red trim, paired with red gym shorts.

左圖:有做標記的模型所產生的圖片,右圖:沒做標記的模型所產生的圖片。Prompt:amazing digital illustration, white background, anime, upper body, zzArisuTachibana, blue bow, sidelocks. She is wearing her white short-sleeved gym shirt with red trim, paired with red gym shorts.

另一個更明顯的例子,是生成真實人物圖片時,不會被動漫風格侵蝕。因為我們有標記 anime,模型學習到的是愛麗絲的動畫風格長如何,而不是「所有風格的」愛麗絲都是動漫風格。

左圖:有做標記的模型所產生的圖片,右圖:沒做標記的模型所產生的圖片。Prompt:photorealistic, white background, upper body, zzArisuTachibana, blue hair bow, sidelocks, blue dress, short sleeves, white collar, buttons

左圖:有做標記的模型所產生的圖片,右圖:沒做標記的模型所產生的圖片。Prompt:photorealistic, white background, upper body, zzArisuTachibana, blue hair bow, sidelocks, blue dress, short sleeves, white collar, buttons

模型選擇

每次用 Ostris AI Toolkit 訓練好一次模型後,我們可以從不同 Steps 的模型檔案選擇一個最適合的,而不一定要是用最後 Steps 的那個。一個直覺想到的是觀察 Loss Graph 的收斂狀況,但在我的經驗裡,通常趨勢不太明顯,類似下圖那樣,不是一個很好的指標。

raw-image

在本文章的《調整訓練參數》段落,我們已經調整成每 250 Steps 儲存一次模型檔案,與產生範例圖片的頻率同步。或許我們可以用這些範例圖片來當作選擇模型的判斷依據。

附註:可以關掉 Walk Seed 選項 ,確保每次使用的 Seed 是完全固定的

要如何有策略的撰寫範例圖片的 Sample Prompts?Ostris AI Toolkit 的 UI 可以舒適的展示 12 個範例圖片,我們可以適當的分配每個範例該扮演的功能。以我們這次愛麗絲 LoRA 為例,其中 9 個我們可以是預計會使用到的案例,剩下 3 個則是不會用到的。

9 個會用到的案例(包含 Trigger Word zzArisuTachibana):

  • 確認是否有如預期畫出人物外型,加上服裝關鍵字,簡單背景,共 3 個
  • 確認是否有保留背景細節與豐富度,加上服裝關鍵字,複雜背景,共 4 個
  • 替人物換上其他服裝,共 2 個

3 個不會用到的案例(不包含 Trigger Word),用來確認否有 Concept Bleeding 的狀況發生,例如動漫男性(不應該被畫成女性或愛麗絲的樣子)、真實女性(不應該被畫成動畫風格或愛麗絲的樣子)

如下圖所示,如果訓練的正確,應該要是左邊 9 個會越來越像愛麗絲,右邊 3 個仍盡量保持原樣。

raw-image

還有一個議題是,我們可能會發現到某個 Steps 之後,模型已經趨於穩定,表現看起來都差不多,我們該怎麼做選擇?

通常越後面 Steps 的模型會改變原生的 Z-Image-Turbo 越多,即使都有正確畫出愛麗絲外型,但可能會在我們意想不到之處做了改變(例如第一個範例,背景的房子從日式逐漸變成歐式),或是訓練過頭造成模型有點「損壞」的痕跡(例如第二個範例,Steps 3,000 的咖啡杯很髒、奶油到處撒)。

從左到右分別為:原生 Z-Image-Turbo、Steps 1,000、Steps 2,000、Steps 3,000

從左到右分別為:原生 Z-Image-Turbo、Steps 1,000、Steps 2,000、Steps 3,000

從左到右分別為:原生 Z-Image-Turbo、Steps 1,000、Steps 2,000、Steps 3,000

從左到右分別為:原生 Z-Image-Turbo、Steps 1,000、Steps 2,000、Steps 3,000

我的原則是「恰到好處」:既然他們都能達成目的,那應該就盡量避免其他負面效果(也就是避免改變 Based Model 太多),所以最後選擇了 Steps 1,500 而不是 Steps 3,000 的模型。

III. 重現我的結果

使用訓練好的模型

如果要使用我訓練好的模型,只要下載模型檔案(CivitAIGitHub)到 ComfyUI 的 LoRA 資料夾,並且把這裡的任何一張示範圖片拉到 ComfyUI 的介面,就可以使用了。

raw-image

重現訓練結果

打開 Ostris AI Toolkit,創建一個資料集叫做 arisu_tachibana_dataset,上傳這裡的圖片並且複製每張圖片的標記。

raw-image

開一個新的訓練任務,點選右上角的 Show Advanced,把這裡的內容覆蓋到目前的設定檔。訓練一陣子後,應該就可以得到跟我差不多的結果。

raw-image
留言
avatar-img
嘉冠談 AI
7會員
5內容數
分享關於 AI 的基礎原理、實測、應用與新知
嘉冠談 AI的其他內容
2025/12/07
Z-Image-Turbo AI 繪圖模型,以硬體成本與生成速度的優勢,席捲開源社群。本文深度實測,包含效能、圖片品質、指令遵循、細節控制、多語文字理解與渲染等,並附上相關的技術解說。
Thumbnail
2025/12/07
Z-Image-Turbo AI 繪圖模型,以硬體成本與生成速度的優勢,席捲開源社群。本文深度實測,包含效能、圖片品質、指令遵循、細節控制、多語文字理解與渲染等,並附上相關的技術解說。
Thumbnail
2025/11/26
簡介與實測最新發表的 AI 影像生成模型 FLUX.2,並將其與 Nana Banana Pro 進行比較。測試範圍包含英文指令與文字渲染、繁中/日文指令與文字渲染,並分析兩者不同的優勢。
Thumbnail
2025/11/26
簡介與實測最新發表的 AI 影像生成模型 FLUX.2,並將其與 Nana Banana Pro 進行比較。測試範圍包含英文指令與文字渲染、繁中/日文指令與文字渲染,並分析兩者不同的優勢。
Thumbnail
2025/03/28
使用 ChatGPT 新繪圖功能製作 11 頁漫畫的經驗分享,包含流程、遇到的問題及解決方法,以及對 AI 繪圖未來的想法。
Thumbnail
2025/03/28
使用 ChatGPT 新繪圖功能製作 11 頁漫畫的經驗分享,包含流程、遇到的問題及解決方法,以及對 AI 繪圖未來的想法。
Thumbnail
看更多
你可能也想看
Thumbnail
這次工作流是採用最近最夯的Z-Image-Turbo,大概也不少人知道這模型的優點,那就是即使是BF16大模型也能在短短20秒內完成出來,並且完成出來的成品也沒太多可挑剔的,是非常誇張的大模型。 一樣與先前的工作流,我都會架設基本款的,都是以自己之前建的工作流的基礎架構建立。
Thumbnail
這次工作流是採用最近最夯的Z-Image-Turbo,大概也不少人知道這模型的優點,那就是即使是BF16大模型也能在短短20秒內完成出來,並且完成出來的成品也沒太多可挑剔的,是非常誇張的大模型。 一樣與先前的工作流,我都會架設基本款的,都是以自己之前建的工作流的基礎架構建立。
Thumbnail
真的很猛,目前使用感想就是風格可以使用三種動漫、3D和寫實,並且剛才也測試過吉普力和新海誠風格,甚至也認得皮卡丘、妙蛙種子、傑尼龜和小火龍,確實滿驚豔的。 更重要的,原本是使用FP8版本就已經很快,大概12秒左右就能完成一張,畫出來的品質比XL還準確許多,真的是快狠準。
Thumbnail
真的很猛,目前使用感想就是風格可以使用三種動漫、3D和寫實,並且剛才也測試過吉普力和新海誠風格,甚至也認得皮卡丘、妙蛙種子、傑尼龜和小火龍,確實滿驚豔的。 更重要的,原本是使用FP8版本就已經很快,大概12秒左右就能完成一張,畫出來的品質比XL還準確許多,真的是快狠準。
Thumbnail
Realistic 3D Chinese landscape painting on a scroll with mountains, river, pine trees in a 9:16 ratio divided into 3 white panels with mist and fog in
Thumbnail
Realistic 3D Chinese landscape painting on a scroll with mountains, river, pine trees in a 9:16 ratio divided into 3 white panels with mist and fog in
Thumbnail
▪︎A glass heart of pear shape in red with bigger leaves in pure color background. .▪︎ 使用Bing Dall-E3 工具生成畫面
Thumbnail
▪︎A glass heart of pear shape in red with bigger leaves in pure color background. .▪︎ 使用Bing Dall-E3 工具生成畫面
Thumbnail
不小心被完美AI繪圖扣款了,既然有一年的時間,就盡情使用吧。 不小心滑到這篇的朋友,先說聲抱歉,我會搞一年這種沒營養的文。 指令: 微風徐徐
Thumbnail
不小心被完美AI繪圖扣款了,既然有一年的時間,就盡情使用吧。 不小心滑到這篇的朋友,先說聲抱歉,我會搞一年這種沒營養的文。 指令: 微風徐徐
Thumbnail
如果改改指令就算是我的創作,那也太神奇了 還真有點懷疑這是我的版權
Thumbnail
如果改改指令就算是我的創作,那也太神奇了 還真有點懷疑這是我的版權
Thumbnail
S1.至 https://github.com/Mikubill/sd-webui-controlnet 了解安裝方式 並安裝 python 3.10.6 版 S2.下載 stable-diffusion-webui S3.下載後 點擊 webui.bat 若無法順利安裝 可參考 環境安裝方式 A
Thumbnail
S1.至 https://github.com/Mikubill/sd-webui-controlnet 了解安裝方式 並安裝 python 3.10.6 版 S2.下載 stable-diffusion-webui S3.下載後 點擊 webui.bat 若無法順利安裝 可參考 環境安裝方式 A
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News