Stable Diffusion -- 訓練LoRA (六)

更新於 發佈於 閱讀時間約 6 分鐘

前言

這篇討論的是LoRA訓練裡面,可能是最重要的一步,就是選圖的標準,以及提示詞的選取策略。

最近在詳細研究到底要如何練出優質穩定的LoRA,參考了幾個Youtuber,以及Reddit上的影片跟文字分享,把一些訣竅整理條列在下面。

一個人物LoRA品質優劣最重要的一點,就是可以在不同的風格下還保持著原始素材圖的人物特徵。

例如下圖,最左邊的是原始的訓練素材,右邊三張分別是動漫風(AnythingV5),擬真風(GhostMix)與真人向(RealDosMix)等不同風格下的呈現,基本上能把臉型眉宇、髮色、瞳色與身材等難以用文字規範的要素如實複製出來,就算及格了。可以說此LoRA訓練成功。

raw-image

另外,在遇到素材圖沒有遇到的情況時,如果能穩定複製該有的特徵且沒有侵蝕想要的風格,例如下圖使用了玩偶風,陶瓷,金屬雕塑的風格,在能夠表現人物的特徵時,並沒有破壞這些指定風格的基本特色,我們可以說這個LoRA沒有出現過擬合(Overfitting)的問題。

raw-image

選圖

根據許多LoRA訓練大佬的心得,選擇LoRA訓練的素材圖有幾個要點要注意:

  • 大臉圖要多,AI訓練時需要學習的特徵越明顯越好,尤其是人臉。人類對於人臉的辨識能力經過幾百萬年的演化,能夠看出一兩個像素的差異,所以在訓練時,必須提供足夠多的大臉圖片,讓AI能盡量學到臉部特徵以及顏色。建議在訓練素材中,大臉照片至少要佔一半。半身照與全身照適量,超遠鏡頭則不必,因為會讓AI學到不屬於人物的景色。
  • 不同攝影角度、表情、光影、髮型與肢體動作等不同變數,讓AI可以學習到這個角色的輪廓、光影表現、肢體比例與臉部肌肉等變數。
  • 高品質圖片。這裡說的高品質不只是解析度高,也包含了圖片要清晰,否則一坨糊掉的4K照片就會跟512x512的小圖片一樣無用。例如下圖,左邊的素材圖乍看之下眼睛是清楚的,但這是人腦補完之後的結果,如果放大看就會發現眼睛瞳孔是一片模糊的,右邊的素材圖,人物的眼睛與眼白是清晰分明的,這更能讓AI學到對人類來說很容易分辨好壞的細節。真人角色LoRA之所以難以訓練,一部分原因是因為相機拍照後的人物特徵其實是模糊的,儘管解析度很高,但因為搖晃、人物動作與過曝等問題,造成影像在放大時其實是模糊不清晰的,AI難以學習。
raw-image
  • 規範圖(regulation images),規範圖是用於AI訓練時避免LoRA過擬合的手段,當AI訓練的步數越多,就越能學到更多的人物特徵,但同時也會讓成果太過符合素材圖的圖片。為了避免這種情形,挑選許多同類型但不同人物的圖來當作規範圖就能避免LoRA太早過擬合。例如我要訓練一個特定女性擬真角色,就可以選許多女性的動漫、擬真與真人照片當作規範圖。但不需要選到印象派、抽象主義或野獸派風格的女性圖片,因為這分類差太遠了,反而會讓AI難以學習角色特徵。

提示詞

在產生訓練素材時,同時會產生相對應的提示詞文字檔,這些提示詞有幾個原則:

  • 如果是人物LoRA,應該要包含他們的分類提示詞,例如1girl,1boy,a woman,a man之類的,因為基本的Dreambooth在訓練圖片時就有包含分類提示詞,而人物LoRA則是在分類提示詞之前再放入識別詞,所以如果要訓練一個名為Asuka123的女性角色,通常提示詞文件檔的開頭會是Asuka123, 1girl, ......
  • LoRA的識別詞越特別越好,通常加入數字效果更好,因為Stable Diffusion的文字系統包含了數百萬以上的詞組,太過平常的識別詞會造成模型混淆,例如Jack這個詞就會產生一個西方男性,所以如果要訓練的人物就叫Jack,最好加個數字例如Jack1988之類的識別詞。
  • 文件檔中的提示詞,代表的是LoRA中的變量(Variant),而沒有被提示詞描述的東西,就是LoRA中的不變量(Invariant)。以下面這幅畫為例,它擁有這樣的提示詞:
ProfShannon, 1girl, solo, looking at viewer, jewelry, upper body, earrings, outdoors, parted lips, day, cape, lips, grey eyes, floating hair, brooch, wind, gem, black cape
raw-image

除了開頭識別詞ProfShannon之外,其他的提示詞都是變量,也就是說looking at viewer(看著鏡頭),earrings(耳環),floating hair(飄揚的頭髮)等等提示詞在這個LoRA都是可變的,不是這個LoRA固有的一部分。至於其他的不變量,例如角色的眉毛形狀,膚色,臉型,髮型,身材,表情與服裝配色等沒有提到的東西,就會被AI辨識並認為是這個LoRA的一部分。

這就是LoRA能穩定製造同一個角色的原因,AI將沒有提示,或語言無法提示的東西訓練進LoRA之中。

當我使用這個LoRA時,如果沒有其他的提示,出現的角色就應該必定是黑髮高馬尾劍眉(不變量)的女性角色。而有沒有耳環,頭髮飄不飄逸(變量)則是AI自行決定。至於街景,燈光色調,由於我的提示詞沒有提起,如果素材圖的街景與燈光色調都是類似的,那也會被揉進LoRA裡面,變成角色出場時固有的色調。由於這種東西很難用提示詞描述,所以不想讓角色LoRA出來時的光源都有類似的傾向,就要加入不同背景與色調的其他素材圖來沖淡這種傾向。這也就是希望角色素材圖能夠有不同場景不同角度不同光影的原因。



參照




留言
avatar-img
留言分享你的想法!
Sheldon Ng-avatar-img
2023/08/15
看完你的一系列教學,真是從零學會ai繪圖和lora 訓練,謝謝你的分享!我最近在嘗試訓練基於sdxl 1.0的lora ,我一直用的人物類lora,作者在同一個lora 內也加上兩套該人物的專屬衣服,只要加入提示詞即可以。如果我想做到類似的效果,可否在訓練人物lora 時,準備她穿上同一服裝幾張角度的相片,然後在正則加上特別的服裝tab 就可以?還是需要獨立訓練,然後再合併
子不語-avatar-img
發文者
2023/08/15
Sheldon Ng 應該是一張照片兩個提示詞,第一個是人名,第二個是服裝,這樣只要有雙倍數量的訓練照片,就能訓練出一個人物兩組服裝。但是AI辨認服裝的能力很差,所以不確定服裝他能抓出多少特徵。
avatar-img
子不語怪・力・亂・神
30.4K會員
435內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
2023/05/24
這篇要來討論,我們是否能靠著一張圖,就能鍛鍊出LoRA。
Thumbnail
2023/05/24
這篇要來討論,我們是否能靠著一張圖,就能鍛鍊出LoRA。
Thumbnail
2023/05/02
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
Thumbnail
2023/05/02
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
Thumbnail
2023/05/01
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
Thumbnail
2023/05/01
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
這裡有幾張我用不同AI繪圖生成器生成的美女圖片,每張圖片的風格各有不同,但都充滿了獨特的魅力。我挑選了幾張我特別喜歡的供大家觀賞,希望你們也能喜歡。 這些圖片展現了不同的美態,有的溫婉優雅,有的活潑可愛,每一張都彷彿訴說著不同的故事。一天的忙碌結束後,看看這些美麗的畫面,真是一種愉快的享受。希望這
Thumbnail
這裡有幾張我用不同AI繪圖生成器生成的美女圖片,每張圖片的風格各有不同,但都充滿了獨特的魅力。我挑選了幾張我特別喜歡的供大家觀賞,希望你們也能喜歡。 這些圖片展現了不同的美態,有的溫婉優雅,有的活潑可愛,每一張都彷彿訴說著不同的故事。一天的忙碌結束後,看看這些美麗的畫面,真是一種愉快的享受。希望這
Thumbnail
在現代社會中,對於美的定義不斷變化,尤其是在科技進步的今天,AI技術的發展使得我們能夠以全新的方式呈現美麗。其中,AI生成的女性形象往往引起人們的關注,尤其是在膚質的表現上。美麗的外表固然重要,但細膩的膚質更是讓人驚艷的關鍵,這不僅僅是視覺上的享受,更是情感上的共鳴。 在我看來,膚質的美麗應該是精
Thumbnail
在現代社會中,對於美的定義不斷變化,尤其是在科技進步的今天,AI技術的發展使得我們能夠以全新的方式呈現美麗。其中,AI生成的女性形象往往引起人們的關注,尤其是在膚質的表現上。美麗的外表固然重要,但細膩的膚質更是讓人驚艷的關鍵,這不僅僅是視覺上的享受,更是情感上的共鳴。 在我看來,膚質的美麗應該是精
Thumbnail
各國的美女都有自己獨特的魅力,她們的美麗不僅僅來自外貌,更來自於文化背景和個性特質。這次就用AI試試美女間的不同。 日本美女 日本美女通常以其溫柔、優雅和端莊著稱。她們注重肌膚保養,皮膚大多白皙光滑。妝容清新自然,追求的是素顏般的自然美。日本女性的穿著也非常講究,喜歡穿和服和時尚的現代服飾,
Thumbnail
各國的美女都有自己獨特的魅力,她們的美麗不僅僅來自外貌,更來自於文化背景和個性特質。這次就用AI試試美女間的不同。 日本美女 日本美女通常以其溫柔、優雅和端莊著稱。她們注重肌膚保養,皮膚大多白皙光滑。妝容清新自然,追求的是素顏般的自然美。日本女性的穿著也非常講究,喜歡穿和服和時尚的現代服飾,
Thumbnail
上一張的美女雙手將薄紗平舉,這次改成自然垂放,效果感覺上就好多了,這AI軟體在美女的呈現上,算是不錯的。學習如何以更具創意和吸引力的方式呈現資訊。該軟體能夠生成逼真且具有吸引力的女性圖像,並且能夠根據用戶的特定要求進行調整。 這張種美麗的形容詞是"亭亭玉立"感覺上,很像奧黛莉赫本出席記者會的姿態,
Thumbnail
上一張的美女雙手將薄紗平舉,這次改成自然垂放,效果感覺上就好多了,這AI軟體在美女的呈現上,算是不錯的。學習如何以更具創意和吸引力的方式呈現資訊。該軟體能夠生成逼真且具有吸引力的女性圖像,並且能夠根據用戶的特定要求進行調整。 這張種美麗的形容詞是"亭亭玉立"感覺上,很像奧黛莉赫本出席記者會的姿態,
Thumbnail
如何用AI生成美女,用提示詞生成美麗的美女! 這裡嘗試了幾張,這裡挑選出覺得還不錯的。這張的重點是在水珠,美女在中間臉部沒有水珠,在肩部的水珠形成對比。 這張薄紗的感覺就差一些,姿勢擺得並不出色,可能擺字,造成兩者對稱,就沒有那麼漂亮了,顯得制式化。 我喜歡這張的美,自然又動人,沒有一點瑕疵,這
Thumbnail
如何用AI生成美女,用提示詞生成美麗的美女! 這裡嘗試了幾張,這裡挑選出覺得還不錯的。這張的重點是在水珠,美女在中間臉部沒有水珠,在肩部的水珠形成對比。 這張薄紗的感覺就差一些,姿勢擺得並不出色,可能擺字,造成兩者對稱,就沒有那麼漂亮了,顯得制式化。 我喜歡這張的美,自然又動人,沒有一點瑕疵,這
Thumbnail
雖然沒有太多讀者對「使用ChatGPT生成虛擬情人美圖」感興趣,但是基於亞斯宅男的本性,我還是會依序把表情、姿勢、場景三篇教學文章寫完。 其實不論是基於什麼原因使用這個功能,你都可以把它想成「進階版」的「紙娃娃」、「模型公仔」:小女孩會幫紙娃娃換上不一樣的服飾,幫她穿著、打扮;男性朋友會購買喜愛角
Thumbnail
雖然沒有太多讀者對「使用ChatGPT生成虛擬情人美圖」感興趣,但是基於亞斯宅男的本性,我還是會依序把表情、姿勢、場景三篇教學文章寫完。 其實不論是基於什麼原因使用這個功能,你都可以把它想成「進階版」的「紙娃娃」、「模型公仔」:小女孩會幫紙娃娃換上不一樣的服飾,幫她穿著、打扮;男性朋友會購買喜愛角
Thumbnail
最近stable diffusion要塞入太多的model,非常佔用空間,所以找了免費每天也有100點的 tensor.art 這網站試試看,馬上可以反應,做出來的效果我展示如下 這邊有無數的新帖子跟model可以嘗試,又不會耗損電腦資源,每天100點非常的夠用了。
Thumbnail
最近stable diffusion要塞入太多的model,非常佔用空間,所以找了免費每天也有100點的 tensor.art 這網站試試看,馬上可以反應,做出來的效果我展示如下 這邊有無數的新帖子跟model可以嘗試,又不會耗損電腦資源,每天100點非常的夠用了。
Thumbnail
這篇討論的是LoRA訓練裡面,可能是最重要的一步,就是選圖的標準,以及提示詞的選取策略。 最近在詳細研究到底要如何練出優質穩定的LoRA,參考了幾個Youtuber,以及Reddit上的影片跟文字分享,把一些訣竅整理條列在下面。
Thumbnail
這篇討論的是LoRA訓練裡面,可能是最重要的一步,就是選圖的標準,以及提示詞的選取策略。 最近在詳細研究到底要如何練出優質穩定的LoRA,參考了幾個Youtuber,以及Reddit上的影片跟文字分享,把一些訣竅整理條列在下面。
Thumbnail
上圖我沒有事後合成喔! 最近在跑一個提示詞~ one cute girl facial expressions,high detail, 8K,correct anatomy, 我一直覺得奇怪? 跑出來的圖片~怎麼許多圖片都是一張圖片上,有好幾張臉?
Thumbnail
上圖我沒有事後合成喔! 最近在跑一個提示詞~ one cute girl facial expressions,high detail, 8K,correct anatomy, 我一直覺得奇怪? 跑出來的圖片~怎麼許多圖片都是一張圖片上,有好幾張臉?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News