Bad Artist、EasyNegative,這些是什麼? - Stable Diffusion

閱讀時間約 11 分鐘
僅以藝術創作者的角度,詮釋我對Stable Diffusion的理解。
使用AUTOMATIC 1111 WebUI介面。

Textual Inversion embedding

  玩過Stable Diffusion(下以SD略稱之),並且有前往CIVITAI等網站下載其他人訓練的AI模型的玩家,應該會注意到在範例圖中提供的設定,其-Prompts(負提示)內常常出現「Bad-Hands」、「EasyNegative」、「Bad-Artist」等關鍵字。
  最初我以為SD這麼厲害,只要在-Prompts輸入這些字詞就知道不可以畫出「很醜的手」、不要模仿「不好的繪師」--但EasyNegative呢?而且就算輸入了,還是會出現很糟糕的手啊?
  其實上述這些都是指向「Textual Inversion embedding」的關鍵字(下以「TIE」略稱之)。英文程度還不錯的人若有興趣,可閱讀AUTOMATIC1111 WebUI作者在GitHub網站的TIE解說頁面。另外,本文後續會用到在該頁面下載的Pekora/佩克拉的TIE
嗯?你不知道Pekora長什麼樣子?大概像這樣:
這是AUTOMATIC1111提供的TIE算出來的,Pekora的真愛粉請別打我。
至於我自己的理解如下:

TIE是一種定義提示字詞的「微」模型。詞嵌入」維基百科

  也就是說,不同於Dreambooth、LoRA、Hypernetwork等會實際更動算圖流程的模型,TIE是告訴SD「它代表的涵義是什麼」。
Dreambooth:教導既存大模型新的概念、改變了既存大模型 = 創造了新的大模型。可以想像為老師教學生學會新的畫風、新的內容,但這個過程有可能讓學生「忘記」或「重新解讀」先前學會的其他概念
LoRA/Hypernetwork:在既存大模型的繪圖過程中插入額外步驟,引導大模型算出想要的結果。可以想像為老師在學生繪圖的過程中分階段介入修圖,藉此畫出想要的畫風和內容,而不會永久性地改變學生的已知概念(不會改變大模型)。只要老師不在(不使用LoRA/Hypernetwork模型),學生就不知道該怎麼畫。
TIE:定義提示字詞對SD所代表的涵義。可以想像為老師催眠學生:「XXX的意思就是這種畫風、這種形狀、這種顏色」,而當催眠解除(移除TIE時),學生就會忘記該字詞的涵義,同樣不會永久性地改變學生的已知概念
  Dreambook、LoRA/Hypernetwork的基本原理應該不難懂,但TIE的原理讀者可能會覺得「這怎麼可行」對吧?其實這和SD算圖的原理有關:將字詞代表的涵義擴散(Diffuse)到畫素上,所以TIE的原理就是告訴模型「你要用特定的方法擴散才能滿足這個字詞的定義」。
例如:柯基犬TIE:「你這樣擴散就能畫出柯基犬。」--但AI並不知道柯基犬長什麼樣。
  但也是因為TIE的原理太「籠統」,所以訓練出的結果往往沒有其他方法要來得「精準」。
*英文聽力不錯的人,推薦這部以通俗方式講解上述四種訓練模型原理的影片

TIE為何會用在-Prompts?

  因為TIE是「微」模型,大小以KB為單位卻能顯著影響繪圖成果,而且-Prompts原本就常包含定義很籠統的字詞,所以有些高手就花費時間訓練出「大多情況不想要在成果中出現」的TIE提供大家使用。那麼,接下來就準備上圖了:
SD設定:
chilloutmix_Ni / salutemix_v1
	512x512
	CFG Scale 10
	Sampling steps 30
	Seeds 3120725476 / 2308425211
	Batch size 4
*Sampling method我忘了記錄,但應是Heun--至少文末的大圖是。
+Prompts
masterpiece, 1girl, 30 years old, noble, holding a scepter, interior, european castle, Middle Ages, portrait,
-Prompts
(low quality, worst quality:1.4), (monochrome:1.1), (greyscale), watermark, text, blurry, jpeg artifacts, cropped, normal quality, signature, username, artist name, cartoon, canvas frame, lowres, (disfigured), (bad art), (deformed), (extra limbs), (b&w), weird colors, (duplicate), (morbid), (mutilated), mutated hands, (poorly drawn hands), (poorly drawn face), (mutation), (ugly),  (bad proportions), cloned face, out of frame, gross proportions, (malformed limbs), (missing arms), (missing legs), (extra arms), (extra legs), fused fingers, (long neck), lowres, (grayscale), (skin spots), acnes, skin blemishes, (age spot),
  +/- Prompts會各別額外加入下列的TIE,請參考各圖片說明:
EasyNegative
(*下載的TIE .py或.safetensor檔,請放到webuiembeddings資料夾內)
1. chilloutmix_Ni大模組系列(3120725476):
無TIE
-Prompts bad-hand-5
-Prompts bad-artist
-Prompts bad_prompt_version2 *這到底是發生了啥事?
-Prompts EasyNegative
-Prompts Pekora
看到這的讀者,應該對bad_promts_version2很有意見,不過請先容我先接著貼--
2. salutemix_v1大模型(3120725476)的圖:
無TIE
-Prompts bad-hand-5
-Prompts bad-artist
-Prompts bad_prompt_version2
-Prompts EasyNegative
-Prompts Pekora
  現在是不是很霧煞煞,理應減少不良成果的bad_prompt_version2,以及把Pekora TIE放在-Prompts時--

怎麼產出的圖比不放它們要來得差?

  我也很好奇,於是決定把上述四種用在-Prompts的TIE全都放在+Prompts跑了一遍(salutemix_v1、2308425211),問題根源就很明顯了:
無TIE
+Prompts bad-hand-5

bad-hand-5:
除了理應包含的「奇怪手部」,也包含了「女孩臉型/體型」、「鳳眼/東亞臉型」、「東亞傳統服裝」、「柔和無描線的畫風」等。

+Prompts bad-artist

bad-artist:
除了「畫布畫框」、「難看的透明度點」、「過度曝光」、「文字」等確實常常不想要的內容外,也包含了類似「女孩臉型/體型」、「鳳眼/東亞臉型」、「東亞傳統服裝」、「柔和無描線的畫風」等。

*bad-hand-5、bad-artist包含的內容有高度相似之處,但查了一下並非同位作者。
+Prompts 見鬼----不是,是bad_prompt_version2

bad_prompt_version2:
包含了確實是大多數人不想要的內容,但「魔鬼藏在細節裡」,對照-Prompts的測試結果可推知,「瓜子臉/比較尖瘦的臉型」、「尖挺的鼻子」、「豐潤的嘴唇」、「有立體感的光影」等,竟也都算在了裡面!
--所以-Prompts的測試才會出現預期外的扁平臉!

+Prompts EasyNegative

EasyNegative:
包含了「單色背景」、「漸層背景」、「單調背景」、「書頁曲面般的背景」、「過黑」、「過暗」、「單調陰影」等,但會發現有「大小眼」的問題(在上圖右上人物,以及chilloutmix_Ni -Prompts EasyNegative左下人物較明顯,並且用在-Prompts時,較大的眼睛會從左眼變右眼)。

+Prompts Pekora

最後用Pekora壓壓驚:
但可以發現,Pekora的TIE把「強調上睫毛」、「黑色緊身衣/胸罩」和「胸形突出」等也算了進去,所以放在-Prompts時會有「上睫毛不明顯」、「變成超級平胸」且「排除黑色底的衣服」等現象。而放在+Prompts時,更能明顯注意到「強烈更改了畫風」。

總結:TIE會反應出作者和圖源中有意無意的偏見

  其實不只TIE,我想所有的AI模型都有上述問題,不過因為SD是繪圖AI,而繪圖本身就是反映作者偏好的過程,所以單就這點而言其實問題不大。然而,本文所測試用於-Prompts的TIE,原本的用意是排除一些常見的不想要的錯誤,卻每一種都會額外影響到其他的層面,而這些層面卻可能是使用者不想排除的部分
  也因此,做完這篇文章的測試並和「無TIE」版本做了比較後,我決定只留下bad-hands-5的TIE,其他則寧可使用更多的字詞來包含我不想要的內容,如下:
bad-hands-5, (low quality, worst quality:1.4), (monochrome:1.1), (greyscale), watermark, text, blurry, jpeg artifacts, cropped, normal quality, signature, username, artist name, cartoon, canvas frame, lowres, (disfigured), (bad art), (deformed), (extra limbs), (b&w), weird colors, (duplicate), (morbid), (mutilated), mutated hands, (poorly drawn hands), (poorly drawn face), (mutation), (ugly),  (bad proportions), cloned face, out of frame, gross proportions, (malformed limbs), (missing arms), (missing legs), (extra arms), (extra legs), fused fingers, (long neck), lowres, (grayscale), (skin spots), acnes, skin blemishes, (age spot),
最後,就以+Prompts加入Pekora TIE,-Prompts中使用bad-hand-5 TIE的圖片來收尾吧!
chilloutmix_Ni 3563761306
  下次想聊聊紫色斑塊與VAEs。
為什麼會看到廣告
82會員
104內容數
筆者探索AI工具時遇到的難題、解方和雜談,不定期更新。
留言0
查看全部
發表第一個留言支持創作者!
黑米BR的沙龍 的其他內容
本教學使用Automatic 1111介面   AI繪圖風行至今,網上已有不少中文教學,包括教導如何訓練LoRA、LoCon等模型的文章,而訓練上述模型時,通常會經過一道「Preprocess Images」工序,中文稱為「圖片預處理」。
先說結論:   演算Img2Img時,Sampling Methods(取樣方法)中Karras類型比較忠於原圖,非Karras類型比較放飛自我。
  最近玩了個台灣製的遊戲,內容不多,玩了三小時就進入「片尾曲」。   這時我突發奇想,擷取一張截圖,然後用這張圖跑Stable Diffusion的Img2Img(以圖算圖)。   因為非業配,沒有取得原圖授權,所以原圖我就不貼了,但有看過結局的人,一定能從下面幾張圖猜出原圖出處: +Prompt
  2023/Apr/8 補充更新 - 想訓練AI模型的人,建議正常安裝Python和Git,理由如下:
ChatGPT創作大賽投稿的短篇推理懸疑故事,見證了ChatGPT的無厘頭...
本教學使用Automatic 1111介面   AI繪圖風行至今,網上已有不少中文教學,包括教導如何訓練LoRA、LoCon等模型的文章,而訓練上述模型時,通常會經過一道「Preprocess Images」工序,中文稱為「圖片預處理」。
先說結論:   演算Img2Img時,Sampling Methods(取樣方法)中Karras類型比較忠於原圖,非Karras類型比較放飛自我。
  最近玩了個台灣製的遊戲,內容不多,玩了三小時就進入「片尾曲」。   這時我突發奇想,擷取一張截圖,然後用這張圖跑Stable Diffusion的Img2Img(以圖算圖)。   因為非業配,沒有取得原圖授權,所以原圖我就不貼了,但有看過結局的人,一定能從下面幾張圖猜出原圖出處: +Prompt
  2023/Apr/8 補充更新 - 想訓練AI模型的人,建議正常安裝Python和Git,理由如下:
ChatGPT創作大賽投稿的短篇推理懸疑故事,見證了ChatGPT的無厘頭...
你可能也想看
Thumbnail
作家 Morgan Housel 在《華爾街日報》中提出一個觀點:我們是用理解知識的方式在思考、學習金錢觀,而不是用理解心智與行為模式的方式學習理財。這段話讓我意識到,我們的財務決策並非總是理性的,情緒因素也扮演著重要角色。通過掌握金錢心理學,能夠幫助我們改善用錢習慣,使財務決策更為理性和長遠。
Thumbnail
📚|預算有限愛書人的好朋友| 閱讀是孩子的大事! 閱讀·悅讀~親子ㄧ起享受的過程! 大野狼國際書展,是來自馬來西亞,有十年歷史,並在國際間巡迴的英文圖書會展。之前在北部的展出時間都是24小時不停歇(這次到午夜)。如果你預算有限,又想要買到cp值高的兒童外文書或學習教材,可以來這裡喔~
Thumbnail
咪咪是位擁有浪漫情懷的無性戀,生活在一個對她不怎麼友好的現實世界裡
Thumbnail
這名字是刻意取Stop starting, start finishing的相反,有一陣子在觀察團隊時發現,story/task 的 burn-down線圖會發現到task幾乎都完成了,但story卻還懸在半空中,甚至在sprint結束前一天,還是有不少stories接近完工卻還沒完工。
Thumbnail
Acceptance criteria 確保 do the right things,DoD 則是確保 do the things right,兩者合在一起,才會 do the right things right。
Thumbnail
一般來說,會斤斤計較估算的數字,一個可能的潛在原因是來自管理層,忘記從哪看來的一句話:總是會得到想要的 KPI。意思是當制定一個指標,總是能得到期望的數字卻不一定能達到預期的效果。
Thumbnail
回來北京之前,我先上了小紅書上研究了一下,發現北京居然有開放居家隔離。我看到之後,馬上把這個消息跟老吳說,要他去跟我們社區的居委會連絡。 果然,居委會的人回覆老吳,只要隔離酒店同意,我們就可以申請居家隔離,他還很熱心地把他跟社區裡其他同樣需要申請居家隔離的人的對話發給我們看作參考。 我們抵達北京首都
生活中 難免多少會有一些不順利、不順遂 或倒楣的事情發生
Thumbnail
其實白布鞋跟bad boy沒關係,但硬讓他們有關係
Thumbnail
一個史丹福輟學生如何能夠騙過前國務卿、億萬富豪和監管機構?
Thumbnail
你自己正在經歷bad trip 你深陷其中但是旁邊的人也有自己的故事腳本只有你自己套入自己的故事劇本內其他人只是配角 我自己的感受
Thumbnail
作家 Morgan Housel 在《華爾街日報》中提出一個觀點:我們是用理解知識的方式在思考、學習金錢觀,而不是用理解心智與行為模式的方式學習理財。這段話讓我意識到,我們的財務決策並非總是理性的,情緒因素也扮演著重要角色。通過掌握金錢心理學,能夠幫助我們改善用錢習慣,使財務決策更為理性和長遠。
Thumbnail
📚|預算有限愛書人的好朋友| 閱讀是孩子的大事! 閱讀·悅讀~親子ㄧ起享受的過程! 大野狼國際書展,是來自馬來西亞,有十年歷史,並在國際間巡迴的英文圖書會展。之前在北部的展出時間都是24小時不停歇(這次到午夜)。如果你預算有限,又想要買到cp值高的兒童外文書或學習教材,可以來這裡喔~
Thumbnail
咪咪是位擁有浪漫情懷的無性戀,生活在一個對她不怎麼友好的現實世界裡
Thumbnail
這名字是刻意取Stop starting, start finishing的相反,有一陣子在觀察團隊時發現,story/task 的 burn-down線圖會發現到task幾乎都完成了,但story卻還懸在半空中,甚至在sprint結束前一天,還是有不少stories接近完工卻還沒完工。
Thumbnail
Acceptance criteria 確保 do the right things,DoD 則是確保 do the things right,兩者合在一起,才會 do the right things right。
Thumbnail
一般來說,會斤斤計較估算的數字,一個可能的潛在原因是來自管理層,忘記從哪看來的一句話:總是會得到想要的 KPI。意思是當制定一個指標,總是能得到期望的數字卻不一定能達到預期的效果。
Thumbnail
回來北京之前,我先上了小紅書上研究了一下,發現北京居然有開放居家隔離。我看到之後,馬上把這個消息跟老吳說,要他去跟我們社區的居委會連絡。 果然,居委會的人回覆老吳,只要隔離酒店同意,我們就可以申請居家隔離,他還很熱心地把他跟社區裡其他同樣需要申請居家隔離的人的對話發給我們看作參考。 我們抵達北京首都
生活中 難免多少會有一些不順利、不順遂 或倒楣的事情發生
Thumbnail
其實白布鞋跟bad boy沒關係,但硬讓他們有關係
Thumbnail
一個史丹福輟學生如何能夠騙過前國務卿、億萬富豪和監管機構?
Thumbnail
你自己正在經歷bad trip 你深陷其中但是旁邊的人也有自己的故事腳本只有你自己套入自己的故事劇本內其他人只是配角 我自己的感受