增加訓練LoRA、LoCon模型的精準度 - Stable Diffusion

閱讀時間約 5 分鐘

本教學使用Automatic 1111介面


  AI繪圖風行至今,網上已有不少中文教學,包括教導如何訓練LoRA、LoCon等模型的文章,而訓練上述模型時,通常會經過一道「Preprocess Images」工序,中文稱為「圖片預處理」。
圖片預處理
  預處理很常勾選「Use deepbooru for caption」(上圖紅框),並在預處理完成後生成配對每張圖片的.txt文字檔案--大多數的教學文在這道步驟後就直接開始訓練。
  這樣其實很可惜,因為只要再多花點工夫,就可以顯著提升訓練成果的「準確度」,且只需要中等程度的英文能力和基本的關鍵字蒐圖技巧。

deepbooru - Danbooru

  在勾選「Use deepbooru for caption」時,有沒有想過什麼是「deepbooru」?其實這和Stable Diffusion訓練來源的圖片有很大的關係,也就是下列網站:
https://danbooru.donmai.us/
*未成年者請勿點入*未成年者請勿點入*未成年者請勿點入
  而進行圖片預處理後,有沒有想過為什麼會生成.txt文字檔案?
  其實只要打開生成的.txt,就會發現是和+Prompts類似的內容。換言之,預處理就是AI以圖片反推關鍵字的工序,而deepbooru的反推結果會套用Danbooru的關鍵字格式
  以下是兩張範例:
範例1
範例1 - 預處理生成的.txt內容
範例2
範例2 - 預處理生成的.txt內容
  注意到了嗎?AI預處理產生的關鍵字不太理想」。舉例而言,範例1的.txt沒有「狐狸」和背景的「薰衣草」,而且紅框圈起的「purple_sky」(紫色天空)根本不存在。
  範例2的.txt問題就更多了,例如雙胞胎的眼睛和頭髮的顏色各只提供一種、完全沒提到衣服的顏色,以及最糟糕的「own_hands_together」(自己握自己的手)!
  試想一下,如果就這樣直接交給AI訓練LoRA、LoCon模型,AI當然會產生「困惑」、進而算出「無厘頭」的結果--不是因為AI笨,而是AI很忠實地遵照了荒謬的關鍵字

參考Danbooru,修正文字檔的內容

  這時就輪到https://danbooru.donmai.us/(*未成年者請勿點入)登場並充分運用英文知識的時候了。既然「deepbooru」生成了Danbooru格式的關鍵字,若要修正其內容,理所當然最好的方式就是去Danbooru尋找正確的關鍵字
  以範例1而言,我在該網站輸入「fox」搜尋結果,並點入了一張圖片:
某張圖片的關鍵字清單 - 不包含圖片是顧慮版權問題
  紅框的部分除了「fox boy」不能用以外,其他都可以加入到範例1的.txt檔案中。參考了幾張有狐狸的圖片後,我將範例1的.txt內容調整如下:
範例1調整後的.txt內容
animal_focus = 圖片中有動物角色
fox = 狐狸
animal_feet = 動物腳
yellow_eyes = 黃色/金色眼睛
flaming_eye = 單眼冒出火焰的特效,雙眼請用 flaming_eyes
fluffy = 蓬鬆毛茸茸
lavender_(flower) = 薰衣草花,直接沿用了Danbooru網站的關鍵字格式
  我也遵照AI生成的關鍵字格式,單個關鍵字的空白以「_」取代(例:flaming_eye),不過使用訓練出來的LoRA、LoCon模型來生圖時,Prompts中直接使用空白即可。
以下是調整後的範例2的.txt內容:
範例2調整後的.txt內容 - 差距相當大
Lu_Ashkol/Eye_Ashkol = 角色名字
*如訓練特定角色模型,以Danbooru格式輸入該角色的英文名會非常有助益。
child = 小孩
female_child = 小女孩 -- 千萬不要使用「loli」,除非想生成「壞壞」的圖片。
flat_chest = 平胸
multicolored_eyes = 多色眼睛
two-tone_hair = 雙色髮色
multicolored_hair = 多色髮色
streaked_hair = 挑染髮色
off-shoulder_shirt = 平口露肩上衣
frilled_sleeves = 摺邊袖
bare_shoulder = 露肩
shoulder_strap = 肩帶
collarbone = 鎖骨
bangs = 瀏海
interlocked_fingers = 十指交扣

推薦使用Danbooru的關鍵字

  原本我想使用「gold_eyes」代表金色眼睛,但實際在Danbooru搜尋後發現找不到結果:
輸入gold_eyes沒有找到圖片,附帶一提golden_eyes搜到的結果也不對
  於是最後改用了yellow_eyes --其實使用Stable Diffusion生圖時,包括網路上一些Prompts範例,其中不乏一些亂七八糟、有輸入有保佑的關鍵字。雖然因為這樣做的人很多、且AI還是有一定程度的「彈性」,所以也不乏瞎貓碰到死耗子的例子,但還是建議找關鍵字時首先來Danbooru搜尋,畢竟用這裡的關鍵字生成想要結果的機率會比較高。
  祝大家激發潛藏已久的英文能力,心想「繪」成!

範例2的雙胞胎故事:
有興趣的話,歡迎前往KadoKado閱讀喔(自產自推)。

為什麼會看到廣告
avatar-img
82會員
104內容數
筆者探索各種感興趣事物的紀錄。 *副帳非主流政治沙龍《黑米BR不政確》:https://vocus.cc/salon/BRiceP
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
黑米BR的沙龍 的其他內容
先說結論:   演算Img2Img時,Sampling Methods(取樣方法)中Karras類型比較忠於原圖,非Karras類型比較放飛自我。
  最近玩了個台灣製的遊戲,內容不多,玩了三小時就進入「片尾曲」。   這時我突發奇想,擷取一張截圖,然後用這張圖跑Stable Diffusion的Img2Img(以圖算圖)。   因為非業配,沒有取得原圖授權,所以原圖我就不貼了,但有看過結局的人,一定能從下面幾張圖猜出原圖出處: +Prompt
  2023/Apr/8 補充更新 - 想訓練AI模型的人,建議正常安裝Python和Git,理由如下:
ChatGPT創作大賽投稿的短篇推理懸疑故事,見證了ChatGPT的無厘頭...
先說結論:   演算Img2Img時,Sampling Methods(取樣方法)中Karras類型比較忠於原圖,非Karras類型比較放飛自我。
  最近玩了個台灣製的遊戲,內容不多,玩了三小時就進入「片尾曲」。   這時我突發奇想,擷取一張截圖,然後用這張圖跑Stable Diffusion的Img2Img(以圖算圖)。   因為非業配,沒有取得原圖授權,所以原圖我就不貼了,但有看過結局的人,一定能從下面幾張圖猜出原圖出處: +Prompt
  2023/Apr/8 補充更新 - 想訓練AI模型的人,建議正常安裝Python和Git,理由如下:
ChatGPT創作大賽投稿的短篇推理懸疑故事,見證了ChatGPT的無厘頭...
你可能也想看
Google News 追蹤
Thumbnail
這是一篇介紹如何使用AI來生成貓貓圖片的文章,作者透過幾個軟體的使用經驗,分享了AI生成圖片的效果以及注意事項。文章內容豐富,並且有各種關鍵字和描述,可以吸引潛在讀者。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
最近在試著用 Tensor Art 訓練 LoRA,老實說,成功率...不太高,或許是我挑選訓練圖片的問題。 但訓練出來,可以給別人用(雖然根本也就是我自己用),就感覺蠻有意思的! 最近,又訓練了一個亂塗鴉的 LoRA(YunQiuLineArt01),我覺得還蠻有趣的,分享給您。
Thumbnail
最近AI生成圖片風潮正夯,文章介紹了使用Copilot生成目前還沒寫好的小說封面的過程。作者描述了操作程序和遇到的問題,是一篇有趣的探討AI應用的文章。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。
Thumbnail
這是一篇介紹如何使用AI來生成貓貓圖片的文章,作者透過幾個軟體的使用經驗,分享了AI生成圖片的效果以及注意事項。文章內容豐富,並且有各種關鍵字和描述,可以吸引潛在讀者。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
最近在試著用 Tensor Art 訓練 LoRA,老實說,成功率...不太高,或許是我挑選訓練圖片的問題。 但訓練出來,可以給別人用(雖然根本也就是我自己用),就感覺蠻有意思的! 最近,又訓練了一個亂塗鴉的 LoRA(YunQiuLineArt01),我覺得還蠻有趣的,分享給您。
Thumbnail
最近AI生成圖片風潮正夯,文章介紹了使用Copilot生成目前還沒寫好的小說封面的過程。作者描述了操作程序和遇到的問題,是一篇有趣的探討AI應用的文章。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
這篇要來分享一下學習了一些攝影的知識後,用於改良AI生圖的經驗。 AI生圖可以藉由少少的幾個句子產生出非常美麗的圖片,事實上,很多時候AI生圖的極限是卡在人類使用者的想像力之下。