Stable Diffusion -- 訓練LoRA（一）

子不語

發佈於學習AI繪圖

2023/05/24 更新2023/04/10 發佈閱讀 7 分鐘

閒聊

剛剛在刷股癌的IG，看到一個很有趣的秘辛：

從我自己學了LoRA之後，在動漫模型裡練出了我要的角色圖樣之後，再餵進colab訓練出LoRA，然後把LoRA用在真人向模型，結果就能弄出各種逆天實景：

所以，Stable Diffusion上面除了學好提示詞算是基本技巧，接下來的LoRA，ControlNet，3D OpenPose Editor等都是讓你的出圖時間更快的進階技巧。確實可以大幅縮短創作時間。

閒話時間結束了，開始正文吧。

準備

LoRA可以在很多地方下載不同的角色、物品、風格，例如Civita.com，huggingface.co。但是如果你想要訓練自己的LoRA，像我一樣，那你需要準備好訓練的素材圖，才能順利烘焙LoRA。

數量：依照經驗，7張到100張都可以，但是張數過少，同一張訓練的次數會非常多，訓練出來的LoRA在高權重的時候會讓算出來的圖嚴重變形（尤其是背景部分）。所以最好是20張上下。當然你可以用鏡像出圖的方法讓訓練圖數量加倍，但這樣還是沒辦法避免高權重下整體變形的問題。
品質：如果是訓練人物或物品的LoRA，最好不要有太多同一個角度，同一個表情的圖片，尤其在張數少的情況下，訓練出來的LoRA會有人物表情僵直的問題。人物的臉通常是LoRA的重點，最好能有面孔多角度，不同光影，不同表情，不同服裝配件，讓模型能夠涵蓋夠多的情況。切記不要加入模糊失焦、被擋住部份臉部的圖片，除非你準備的張數夠多。
尺寸：以Stable Diffusion 1.X為基準訓練的圖片要求至少要是512x512像素的正方形圖片，而Stable Diffusion 2.X的話圖片至少要768x768像素。

裁切

當我們準備好圖片之後，就要開始裁切，如果沒有洩密疑慮的話，什麼美術工具都不會的美術小白可以使用BIRME這個網站，把過大的尺寸裁切成512x512的訓練素材圖：

預處理

接下來是最重要的一步，LoRA的品質除了跟訓練圖本身的品質，以及訓練的設定有關之外，另一個重點是訓練圖的提示詞文本。

有關如何在Automatic1111上幫訓練圖提煉提示詞文本，在AI繪圖-用Lora打造你的夢幻模特兒吧!三集之二：訓練Lora模型的圖片預處理小節就有詳盡的步驟，請自行觀看。

這裡要提的是不同處：

在Use BLIP for caption與Use deepbooru for caption這兩個選項，我都用BLIP來提煉提示詞，因為deepbooru給的提示詞實在太多了，很多其實是瞎猜，如果你的訓練圖超過30張，光是刪掉不對的提示詞就夠累了。

第二點，你必須打開每個提示詞文本檔案，一個一個修正提示詞，否則你怎麼訓練都不會練出有用的LoRA。

以我想要訓練的角色為例：

名字（提示詞）：Vallaria。
外表特徵：銀白色頭髮，白皮膚，深藍色眼眸，黑眉毛，有雀斑。

名字最好是夠獨特的，如果太菜市場的名字，會跟模組裡面的同名物體衝突，如果真的不想取其他名字，試試看後面加數字，例如Jack999，避免衝突。

（順帶一提，SD裡面真的有一個叫Jack的提示詞，會算出成年男性，雖然每次叫出來的Jack都長得不一樣😄）

當你打開提示詞文件時，可能會看到像這樣的敘述：

a woman with white hair and blue eyes and black robe and a flower on the shoulder of the robe at a snowy street.

此時，要將對象提示詞a woman換成你要的角色名，在這個例子要換成Vallaria。
接著，把關於髮色white hair與眼眸顏色blue eyes等我們定義好的外表特徵也刪掉。
接著，觀察原本的圖片，把不是你想要但是顯示在圖片上的提示詞寫進去，例如頭上有戴帽的話就要加hat，背景的光線佈局與季節是秋光autumn lights，她手上有一根燭台之類的，與角色特徵無關，但是預處理程式沒抓出來的事情。

更改過的提示詞會變成這樣：

Vallaria with black robe and a hat on her head and a flower on the shoulder of the robe at a snowy street, autumn lights, candle stick on her hand

你大概會覺得這句子文法不通。沒關係，電腦在訓練時會將整個提示詞文本用自己的方法拆成一堆單詞，電腦是不太在乎文法的。

至於為什麼要刪掉特徵，加上沒提到的事情，是因為這就是訓練的目的。

AI學習算圖，就是建立在圖形與提示詞的關聯上，所以當電腦發現這是一個藍眼睛白皮膚白頭髮的女性，但是卻在提示詞文本上找不到眼睛顏色、頭髮顏色、皮膚顏色的提示詞，卻反而每張圖都有一個叫Vallaria的提示詞時，他就會學到Vallaria等於藍眼睛白髮的白人女性，以及諸如臉型，五官比例等等特徵。

相反地，你不要AI建立關聯的特質，就必須要盡量標示出來，例如我的訓練圖八成以上Vallaria都有戴上帽子或公主冠等頭飾，就必須要在每個出現的圖片上都標示在提示詞文本上，否則AI會認為頭上有頭飾是這個角色的外表特徵，訓練出來的LoRA會變成Vallaria出現時，頭上必戴公主冠的問題。