Stable Diffusion -- 訓練LoRA (六)

閱讀時間約 5 分鐘

前言

這篇討論的是LoRA訓練裡面,可能是最重要的一步,就是選圖的標準,以及提示詞的選取策略。
最近在詳細研究到底要如何練出優質穩定的LoRA,參考了幾個Youtuber,以及Reddit上的影片跟文字分享,把一些訣竅整理條列在下面。
一個人物LoRA品質優劣最重要的一點,就是可以在不同的風格下還保持著原始素材圖的人物特徵。
例如下圖,最左邊的是原始的訓練素材,右邊三張分別是動漫風(AnythingV5),擬真風(GhostMix)與真人向(RealDosMix)等不同風格下的呈現,基本上能把臉型眉宇、髮色、瞳色與身材等難以用文字規範的要素如實複製出來,就算及格了。可以說此LoRA訓練成功。
素材圖與成品比較
另外,在遇到素材圖沒有遇到的情況時,如果能穩定複製該有的特徵且沒有侵蝕想要的風格,例如下圖使用了玩偶風,陶瓷,金屬雕塑的風格,在能夠表現人物的特徵時,並沒有破壞這些指定風格的基本特色,我們可以說這個LoRA沒有出現過擬合(Overfitting)的問題。
在玩偶風,陶瓷,金屬雕塑的展示

選圖

根據許多LoRA訓練大佬的心得,選擇LoRA訓練的素材圖有幾個要點要注意:
  • 大臉圖要多,AI訓練時需要學習的特徵越明顯越好,尤其是人臉。人類對於人臉的辨識能力經過幾百萬年的演化,能夠看出一兩個像素的差異,所以在訓練時,必須提供足夠多的大臉圖片,讓AI能盡量學到臉部特徵以及顏色。建議在訓練素材中,大臉照片至少要佔一半。半身照與全身照適量,超遠鏡頭則不必,因為會讓AI學到不屬於人物的景色。
  • 不同攝影角度、表情、光影、髮型與肢體動作等不同變數,讓AI可以學習到這個角色的輪廓、光影表現、肢體比例與臉部肌肉等變數。
  • 高品質圖片。這裡說的高品質不只是解析度高,也包含了圖片要清晰,否則一坨糊掉的4K照片就會跟512x512的小圖片一樣無用。例如下圖,左邊的素材圖乍看之下眼睛是清楚的,但這是人腦補完之後的結果,如果放大看就會發現眼睛瞳孔是一片模糊的,右邊的素材圖,人物的眼睛與眼白是清晰分明的,這更能讓AI學到對人類來說很容易分辨好壞的細節。真人角色LoRA之所以難以訓練,一部分原因是因為相機拍照後的人物特徵其實是模糊的,儘管解析度很高,但因為搖晃、人物動作與過曝等問題,造成影像在放大時其實是模糊不清晰的,AI難以學習。
糊掉的眼睛與清晰的眼睛
  • 規範圖(regulation images),規範圖是用於AI訓練時避免LoRA過擬合的手段,當AI訓練的步數越多,就越能學到更多的人物特徵,但同時也會讓成果太過符合素材圖的圖片。為了避免這種情形,挑選許多同類型但不同人物的圖來當作規範圖就能避免LoRA太早過擬合。例如我要訓練一個特定女性擬真角色,就可以選許多女性的動漫、擬真與真人照片當作規範圖。但不需要選到印象派、抽象主義或野獸派風格的女性圖片,因為這分類差太遠了,反而會讓AI難以學習角色特徵。

提示詞

在產生訓練素材時,同時會產生相對應的提示詞文字檔,這些提示詞有幾個原則:
  • 如果是人物LoRA,應該要包含他們的分類提示詞,例如1girl,1boy,a woman,a man之類的,因為基本的Dreambooth在訓練圖片時就有包含分類提示詞,而人物LoRA則是在分類提示詞之前再放入識別詞,所以如果要訓練一個名為Asuka123的女性角色,通常提示詞文件檔的開頭會是Asuka123, 1girl, ......
  • LoRA的識別詞越特別越好,通常加入數字效果更好,因為Stable Diffusion的文字系統包含了數百萬以上的詞組,太過平常的識別詞會造成模型混淆,例如Jack這個詞就會產生一個西方男性,所以如果要訓練的人物就叫Jack,最好加個數字例如Jack1988之類的識別詞。
  • 文件檔中的提示詞,代表的是LoRA中的變量(Variant),而沒有被提示詞描述的東西,就是LoRA中的不變量(Invariant)。以下面這幅畫為例,它擁有這樣的提示詞:
ProfShannon, 1girl, solo, looking at viewer, jewelry, upper body, earrings, outdoors, parted lips, day, cape, lips, grey eyes, floating hair, brooch, wind, gem, black cape
素材圖
除了開頭識別詞ProfShannon之外,其他的提示詞都是變量,也就是說looking at viewer(看著鏡頭),earrings(耳環),floating hair(飄揚的頭髮)等等提示詞在這個LoRA都是可變的,不是這個LoRA固有的一部分。至於其他的不變量,例如角色的眉毛形狀,膚色,臉型,髮型,身材,表情與服裝配色等沒有提到的東西,就會被AI辨識並認為是這個LoRA的一部分。
這就是LoRA能穩定製造同一個角色的原因,AI將沒有提示,或語言無法提示的東西訓練進LoRA之中。
當我使用這個LoRA時,如果沒有其他的提示,出現的角色就應該必定是黑髮高馬尾劍眉(不變量)的女性角色。而有沒有耳環,頭髮飄不飄逸(變量)則是AI自行決定。至於街景,燈光色調,由於我的提示詞沒有提起,如果素材圖的街景與燈光色調都是類似的,那也會被揉進LoRA裡面,變成角色出場時固有的色調。由於這種東西很難用提示詞描述,所以不想讓角色LoRA出來時的光源都有類似的傾向,就要加入不同背景與色調的其他素材圖來沖淡這種傾向。這也就是希望角色素材圖能夠有不同場景不同角度不同光影的原因。

參照

為什麼會看到廣告
18.0K會員
296內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
留言0
查看全部
發表第一個留言支持創作者!
這篇要來討論,我們是否能靠著一張圖,就能鍛鍊出LoRA。
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
這個方法主要是借用Google Colab的威力。 這次要介紹的LoRA訓練法,特別適用於下列對象: nVidia顯卡不夠高級,跑不動訓練程序 根本不是nVidia顯卡的使用者,Stable Diffusion的訓練程序不支援 不想花錢花電力花顯卡時間訓練
本文教導你如何準備LoRA訓練的素材與選擇合適的提示詞。
奮戰整整三天,終於可以讓妳在任何模組上出現,這感覺真好。😊 來說說為何使用LoRA,還有它的一些特性。
這篇要來討論,我們是否能靠著一張圖,就能鍛鍊出LoRA。
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
這個方法主要是借用Google Colab的威力。 這次要介紹的LoRA訓練法,特別適用於下列對象: nVidia顯卡不夠高級,跑不動訓練程序 根本不是nVidia顯卡的使用者,Stable Diffusion的訓練程序不支援 不想花錢花電力花顯卡時間訓練
本文教導你如何準備LoRA訓練的素材與選擇合適的提示詞。
奮戰整整三天,終於可以讓妳在任何模組上出現,這感覺真好。😊 來說說為何使用LoRA,還有它的一些特性。
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
這個應用情境可能是,如果你有自己的產品想要以QRcode來行銷,而「文生圖」(txt2img)的結果又無法與你的實際想像契合時,那麼用你的實際產品做為基底的圖生圖(img2img)QRcode就是一個不錯的選項。
Thumbnail
本文探討了反向詞(Negative Embedding)的概念,並介紹了在 Stable Diffusion WebUI 中使用的幾種模型,包括 EasyNegative、bad_prompt_version2、bad-hands-5 和 Deep Negative V1.x。這些模型的主要目的是在
Thumbnail
txt2img 時,會用 512、768 等等大小來測試算圖,反覆迭代找到一個適合的 prompt 和參數組合。如果想要以此組合算出高解析度的圖片,直接調整長寬會遇到畫面跑掉的問題。該如何在固定構圖的情況下增加圖片的解析度呢?本文提供三個方法讓大家嘗試看看!
Thumbnail
本教學使用Automatic 1111介面   AI繪圖風行至今,網上已有不少中文教學,包括教導如何訓練LoRA、LoCon等模型的文章,而訓練上述模型時,通常會經過一道「Preprocess Images」工序,中文稱為「圖片預處理」。
Thumbnail
stable diffusion 是一款AI繪圖軟體,你可以免費把stable diffusion算出來的圖免費拿來商用,但是像我的電腦因為顯卡太舊而無法快速運行,而浪費很多時間,你只要準備一個google帳號即可。
Thumbnail
AI 每天每週都在進步,我寫在 繪圖0能者的AI藝術入門手冊 的推薦軟體安裝,很快就推出新版了,所以,我把 Automatic1111 最新版本安裝方式寫在這裡,以便盡我所能為各位讀者更新。 建議使用 windows 桌機PC,具有 Nvidia GTX1660以上等級的獨立顯示卡,算圖會比較容易。
Thumbnail
去這邊點選開啟sd的webui-user.bat程式先會跟你說9009 把這個bat右鍵筆記本編輯會發現,set PYTHON=路徑是空的,那我們就去把後面的路徑補上改成下面這個 set PYTHON=D:\StableDiffusion\system\python\python.exe 接下來
Thumbnail
  2023/Apr/8 補充更新 - 想訓練AI模型的人,建議正常安裝Python和Git,理由如下:
Thumbnail
注意! 以下為不專業解釋~若有錯誤請指教。 使用 ai 產出圖片需要一個附檔名為 .ckpt 的模型訓練檔案~ai 會使用這個訓練檔案內的資訊,產生出我們想畫的圖片出來。
Thumbnail
試著玩一下 stable diffusion,一個 Ai 作畫的軟體~ 結果啥都畫不出來~ 哈哈哈!
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
這個應用情境可能是,如果你有自己的產品想要以QRcode來行銷,而「文生圖」(txt2img)的結果又無法與你的實際想像契合時,那麼用你的實際產品做為基底的圖生圖(img2img)QRcode就是一個不錯的選項。
Thumbnail
本文探討了反向詞(Negative Embedding)的概念,並介紹了在 Stable Diffusion WebUI 中使用的幾種模型,包括 EasyNegative、bad_prompt_version2、bad-hands-5 和 Deep Negative V1.x。這些模型的主要目的是在
Thumbnail
txt2img 時,會用 512、768 等等大小來測試算圖,反覆迭代找到一個適合的 prompt 和參數組合。如果想要以此組合算出高解析度的圖片,直接調整長寬會遇到畫面跑掉的問題。該如何在固定構圖的情況下增加圖片的解析度呢?本文提供三個方法讓大家嘗試看看!
Thumbnail
本教學使用Automatic 1111介面   AI繪圖風行至今,網上已有不少中文教學,包括教導如何訓練LoRA、LoCon等模型的文章,而訓練上述模型時,通常會經過一道「Preprocess Images」工序,中文稱為「圖片預處理」。
Thumbnail
stable diffusion 是一款AI繪圖軟體,你可以免費把stable diffusion算出來的圖免費拿來商用,但是像我的電腦因為顯卡太舊而無法快速運行,而浪費很多時間,你只要準備一個google帳號即可。
Thumbnail
AI 每天每週都在進步,我寫在 繪圖0能者的AI藝術入門手冊 的推薦軟體安裝,很快就推出新版了,所以,我把 Automatic1111 最新版本安裝方式寫在這裡,以便盡我所能為各位讀者更新。 建議使用 windows 桌機PC,具有 Nvidia GTX1660以上等級的獨立顯示卡,算圖會比較容易。
Thumbnail
去這邊點選開啟sd的webui-user.bat程式先會跟你說9009 把這個bat右鍵筆記本編輯會發現,set PYTHON=路徑是空的,那我們就去把後面的路徑補上改成下面這個 set PYTHON=D:\StableDiffusion\system\python\python.exe 接下來
Thumbnail
  2023/Apr/8 補充更新 - 想訓練AI模型的人,建議正常安裝Python和Git,理由如下:
Thumbnail
注意! 以下為不專業解釋~若有錯誤請指教。 使用 ai 產出圖片需要一個附檔名為 .ckpt 的模型訓練檔案~ai 會使用這個訓練檔案內的資訊,產生出我們想畫的圖片出來。
Thumbnail
試著玩一下 stable diffusion,一個 Ai 作畫的軟體~ 結果啥都畫不出來~ 哈哈哈!