Stable Diffusion -- 訓練LoRA (六)

更新於 發佈於 閱讀時間約 5 分鐘

前言

這篇討論的是LoRA訓練裡面,可能是最重要的一步,就是選圖的標準,以及提示詞的選取策略。
最近在詳細研究到底要如何練出優質穩定的LoRA,參考了幾個Youtuber,以及Reddit上的影片跟文字分享,把一些訣竅整理條列在下面。
一個人物LoRA品質優劣最重要的一點,就是可以在不同的風格下還保持著原始素材圖的人物特徵。
例如下圖,最左邊的是原始的訓練素材,右邊三張分別是動漫風(AnythingV5),擬真風(GhostMix)與真人向(RealDosMix)等不同風格下的呈現,基本上能把臉型眉宇、髮色、瞳色與身材等難以用文字規範的要素如實複製出來,就算及格了。可以說此LoRA訓練成功。
素材圖與成品比較
另外,在遇到素材圖沒有遇到的情況時,如果能穩定複製該有的特徵且沒有侵蝕想要的風格,例如下圖使用了玩偶風,陶瓷,金屬雕塑的風格,在能夠表現人物的特徵時,並沒有破壞這些指定風格的基本特色,我們可以說這個LoRA沒有出現過擬合(Overfitting)的問題。
在玩偶風,陶瓷,金屬雕塑的展示

選圖

根據許多LoRA訓練大佬的心得,選擇LoRA訓練的素材圖有幾個要點要注意:
  • 大臉圖要多,AI訓練時需要學習的特徵越明顯越好,尤其是人臉。人類對於人臉的辨識能力經過幾百萬年的演化,能夠看出一兩個像素的差異,所以在訓練時,必須提供足夠多的大臉圖片,讓AI能盡量學到臉部特徵以及顏色。建議在訓練素材中,大臉照片至少要佔一半。半身照與全身照適量,超遠鏡頭則不必,因為會讓AI學到不屬於人物的景色。
  • 不同攝影角度、表情、光影、髮型與肢體動作等不同變數,讓AI可以學習到這個角色的輪廓、光影表現、肢體比例與臉部肌肉等變數。
  • 高品質圖片。這裡說的高品質不只是解析度高,也包含了圖片要清晰,否則一坨糊掉的4K照片就會跟512x512的小圖片一樣無用。例如下圖,左邊的素材圖乍看之下眼睛是清楚的,但這是人腦補完之後的結果,如果放大看就會發現眼睛瞳孔是一片模糊的,右邊的素材圖,人物的眼睛與眼白是清晰分明的,這更能讓AI學到對人類來說很容易分辨好壞的細節。真人角色LoRA之所以難以訓練,一部分原因是因為相機拍照後的人物特徵其實是模糊的,儘管解析度很高,但因為搖晃、人物動作與過曝等問題,造成影像在放大時其實是模糊不清晰的,AI難以學習。
糊掉的眼睛與清晰的眼睛
  • 規範圖(regulation images),規範圖是用於AI訓練時避免LoRA過擬合的手段,當AI訓練的步數越多,就越能學到更多的人物特徵,但同時也會讓成果太過符合素材圖的圖片。為了避免這種情形,挑選許多同類型但不同人物的圖來當作規範圖就能避免LoRA太早過擬合。例如我要訓練一個特定女性擬真角色,就可以選許多女性的動漫、擬真與真人照片當作規範圖。但不需要選到印象派、抽象主義或野獸派風格的女性圖片,因為這分類差太遠了,反而會讓AI難以學習角色特徵。

提示詞

在產生訓練素材時,同時會產生相對應的提示詞文字檔,這些提示詞有幾個原則:
  • 如果是人物LoRA,應該要包含他們的分類提示詞,例如1girl,1boy,a woman,a man之類的,因為基本的Dreambooth在訓練圖片時就有包含分類提示詞,而人物LoRA則是在分類提示詞之前再放入識別詞,所以如果要訓練一個名為Asuka123的女性角色,通常提示詞文件檔的開頭會是Asuka123, 1girl, ......
  • LoRA的識別詞越特別越好,通常加入數字效果更好,因為Stable Diffusion的文字系統包含了數百萬以上的詞組,太過平常的識別詞會造成模型混淆,例如Jack這個詞就會產生一個西方男性,所以如果要訓練的人物就叫Jack,最好加個數字例如Jack1988之類的識別詞。
  • 文件檔中的提示詞,代表的是LoRA中的變量(Variant),而沒有被提示詞描述的東西,就是LoRA中的不變量(Invariant)。以下面這幅畫為例,它擁有這樣的提示詞:
ProfShannon, 1girl, solo, looking at viewer, jewelry, upper body, earrings, outdoors, parted lips, day, cape, lips, grey eyes, floating hair, brooch, wind, gem, black cape
素材圖
除了開頭識別詞ProfShannon之外,其他的提示詞都是變量,也就是說looking at viewer(看著鏡頭),earrings(耳環),floating hair(飄揚的頭髮)等等提示詞在這個LoRA都是可變的,不是這個LoRA固有的一部分。至於其他的不變量,例如角色的眉毛形狀,膚色,臉型,髮型,身材,表情與服裝配色等沒有提到的東西,就會被AI辨識並認為是這個LoRA的一部分。
這就是LoRA能穩定製造同一個角色的原因,AI將沒有提示,或語言無法提示的東西訓練進LoRA之中。
當我使用這個LoRA時,如果沒有其他的提示,出現的角色就應該必定是黑髮高馬尾劍眉(不變量)的女性角色。而有沒有耳環,頭髮飄不飄逸(變量)則是AI自行決定。至於街景,燈光色調,由於我的提示詞沒有提起,如果素材圖的街景與燈光色調都是類似的,那也會被揉進LoRA裡面,變成角色出場時固有的色調。由於這種東西很難用提示詞描述,所以不想讓角色LoRA出來時的光源都有類似的傾向,就要加入不同背景與色調的其他素材圖來沖淡這種傾向。這也就是希望角色素材圖能夠有不同場景不同角度不同光影的原因。

參照

即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
22.5K會員
414內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
這篇要來討論,我們是否能靠著一張圖,就能鍛鍊出LoRA。
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
這個方法主要是借用Google Colab的威力。 這次要介紹的LoRA訓練法,特別適用於下列對象: nVidia顯卡不夠高級,跑不動訓練程序 根本不是nVidia顯卡的使用者,Stable Diffusion的訓練程序不支援 不想花錢花電力花顯卡時間訓練
本文教導你如何準備LoRA訓練的素材與選擇合適的提示詞。
奮戰整整三天,終於可以讓妳在任何模組上出現,這感覺真好。😊 來說說為何使用LoRA,還有它的一些特性。
這篇要來討論,我們是否能靠著一張圖,就能鍛鍊出LoRA。
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
這個方法主要是借用Google Colab的威力。 這次要介紹的LoRA訓練法,特別適用於下列對象: nVidia顯卡不夠高級,跑不動訓練程序 根本不是nVidia顯卡的使用者,Stable Diffusion的訓練程序不支援 不想花錢花電力花顯卡時間訓練
本文教導你如何準備LoRA訓練的素材與選擇合適的提示詞。
奮戰整整三天,終於可以讓妳在任何模組上出現,這感覺真好。😊 來說說為何使用LoRA,還有它的一些特性。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
研究AI生成美女圖像 研究AI生成美女圖像是一個很有趣的方向,特別是對於喜歡速寫但很少畫美女的我來說。AI生成圖像的技術不僅可以幫助創作出我心中所想的形象,還可以作為靈感的來源,讓我在速寫中嘗試新的風格和主題。 基於大量的數據訓練 AI生成的圖像通常基於大量的數據訓練,可以創造出各種不同風格和
Thumbnail
這裡有幾張我用不同AI繪圖生成器生成的美女圖片,每張圖片的風格各有不同,但都充滿了獨特的魅力。我挑選了幾張我特別喜歡的供大家觀賞,希望你們也能喜歡。 這些圖片展現了不同的美態,有的溫婉優雅,有的活潑可愛,每一張都彷彿訴說著不同的故事。一天的忙碌結束後,看看這些美麗的畫面,真是一種愉快的享受。希望這
Thumbnail
如何用AI生成美女,用提示詞生成美麗的美女! 這裡嘗試了幾張,這裡挑選出覺得還不錯的。這張的重點是在水珠,美女在中間臉部沒有水珠,在肩部的水珠形成對比。 這張薄紗的感覺就差一些,姿勢擺得並不出色,可能擺字,造成兩者對稱,就沒有那麼漂亮了,顯得制式化。 我喜歡這張的美,自然又動人,沒有一點瑕疵,這
Thumbnail
試著去訓練 LoRA 幾次後,發現一些有趣的問題... ㄜ~技術問題後面再說好了,先分享最近訓練的 LoRA YunQiuWaterColor ​一個類似水彩畫風的 LoRA。 以下來欣賞幾張圖片吧!
Thumbnail
最近在試著用 Tensor Art 訓練 LoRA,老實說,成功率...不太高,或許是我挑選訓練圖片的問題。 但訓練出來,可以給別人用(雖然根本也就是我自己用),就感覺蠻有意思的! 最近,又訓練了一個亂塗鴉的 LoRA(YunQiuLineArt01),我覺得還蠻有趣的,分享給您。
Thumbnail
大叔最近在研究如何使用 TensorArt 來訓練自己的 LoRA 模型,昨晚終於測試成功了,太令人感動了,有興趣的話,請您也來試試大叔的手繪風格 LoRA YunQiuStyleColor 吧!
Thumbnail
我突然想要畫一些像 "模型" 的人物,於是就想找找,有沒有什麼模型,畫出來的人物就像模型...哈哈哈! 有沒有很繞口,知道我是什麼意思吧? (以下排名不分先後,每個模型給您三張圖參考,提示詞放在文末!)
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
研究AI生成美女圖像 研究AI生成美女圖像是一個很有趣的方向,特別是對於喜歡速寫但很少畫美女的我來說。AI生成圖像的技術不僅可以幫助創作出我心中所想的形象,還可以作為靈感的來源,讓我在速寫中嘗試新的風格和主題。 基於大量的數據訓練 AI生成的圖像通常基於大量的數據訓練,可以創造出各種不同風格和
Thumbnail
這裡有幾張我用不同AI繪圖生成器生成的美女圖片,每張圖片的風格各有不同,但都充滿了獨特的魅力。我挑選了幾張我特別喜歡的供大家觀賞,希望你們也能喜歡。 這些圖片展現了不同的美態,有的溫婉優雅,有的活潑可愛,每一張都彷彿訴說著不同的故事。一天的忙碌結束後,看看這些美麗的畫面,真是一種愉快的享受。希望這
Thumbnail
如何用AI生成美女,用提示詞生成美麗的美女! 這裡嘗試了幾張,這裡挑選出覺得還不錯的。這張的重點是在水珠,美女在中間臉部沒有水珠,在肩部的水珠形成對比。 這張薄紗的感覺就差一些,姿勢擺得並不出色,可能擺字,造成兩者對稱,就沒有那麼漂亮了,顯得制式化。 我喜歡這張的美,自然又動人,沒有一點瑕疵,這
Thumbnail
試著去訓練 LoRA 幾次後,發現一些有趣的問題... ㄜ~技術問題後面再說好了,先分享最近訓練的 LoRA YunQiuWaterColor ​一個類似水彩畫風的 LoRA。 以下來欣賞幾張圖片吧!
Thumbnail
最近在試著用 Tensor Art 訓練 LoRA,老實說,成功率...不太高,或許是我挑選訓練圖片的問題。 但訓練出來,可以給別人用(雖然根本也就是我自己用),就感覺蠻有意思的! 最近,又訓練了一個亂塗鴉的 LoRA(YunQiuLineArt01),我覺得還蠻有趣的,分享給您。
Thumbnail
大叔最近在研究如何使用 TensorArt 來訓練自己的 LoRA 模型,昨晚終於測試成功了,太令人感動了,有興趣的話,請您也來試試大叔的手繪風格 LoRA YunQiuStyleColor 吧!
Thumbnail
我突然想要畫一些像 "模型" 的人物,於是就想找找,有沒有什麼模型,畫出來的人物就像模型...哈哈哈! 有沒有很繞口,知道我是什麼意思吧? (以下排名不分先後,每個模型給您三張圖參考,提示詞放在文末!)
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。