各位AI繪圖的新手,在使用Stable Diffusion的時候,是否會讚嘆網路上的產品為何如此美麗? 為什麼我產出來的AI繪圖本身就是沒有辦法達到這樣的美感? 難道真的就是要學會那些秘密的咒語(Prompt)才能夠產生美圖嗎?
我們今天這一篇文章,要分享我自己玩AI繪圖到目前為止的心得並且把影響AI繪圖品質歸類為四大要素,我將以實證並且實測的角度來驗證給各位看,到底這幾個要素會怎樣影響我們產生的AI繪圖的品質,跟我一樣好奇或者是AI的繪圖新手們應該可以從今天的文章中掌握到如何提升圖片品質的技巧。關於Stable Diffusion的Prompt寫法,歡迎參考
我這一篇文章裏面有比較詳細的說明。
底下就是我個人歸納AI繪圖影響繪圖品質的四大要素,雖然說是四大要素,但是其重要性其實是不太相等的,我這邊會一個一個詳細的解說。我會怎樣驗證這些要素呢? 很簡單,秉持著科學實驗的精神,一次改變一個變因,並且把實測的結果給各位看。
4 Key points for Stable Diffusion Output
第一個因素,Stable Diffusion 選用的Base Model也就是模型,所謂的模型也就是Stable Diffusion這個AI是被那些圖片訓練出來的。
我們曾經在這篇文章中探討過AI是怎麼學習繪圖的,如果一個模型是被很多現實世界真正的照片所訓練,那麼他產生出來的圖片一定都是相當的擬真照片風格,如果一個模型是被非常多精美的圖片訓練過,那麼它產生出來的圖片也相對都會相當的美型(但是也很容易有特定的風格)。 我們就來實際看一下我們用同一組的Prompt 產出來的圖片,套用不同的Base Model的結果。 我想很多網友第一個都是希望可以產出美女圖,那麼我們從善如流就用以下的簡單Prompt來做測試吧。 "
full body shot of a beautiful woman wearing futuristic outfit"並且加上適當的negative prompt我們 會得到以下的圖片
Sample prompt, different Models
可以看到,產生出來的是四種截然不同的結果。我選擇的第一個 Model Anything v4.5 會產生出非常有美感,但是完全是動漫風格的產出,而第二個我選擇的Model Chilloutmix 則是網路上很多美女圖選用的Base model會產出很漂亮但是面孔是東方年輕女性的,而第三個Dreamshaper model (個人最愛)則是會產出相對好看但是偏西方臉孔的圖片,而第四個大家覺得最沒有美感的反而是Stable Diffusion本身提供的基礎Model SD V1.5。所以產不出美圖嗎? 你第一個要做的事情就是選擇一個能夠產生出漂亮圖片的Base Model,這絕對是最重要的一點。
第二個因素也就是大家所說的詠唱咒語了,這就是Prompt,大家應該都覺得這是最重要的一點,實際上除了Base Model以外,確實也是最重要的,舉凡要產生的內容有哪些主體動作風格,都需要利用Prompt。而毫不意外的Prompt本身也會影響產出的圖片品質,這是怎麼做到的呢? 以下我們就統一用一樣的Base Model但是去嘗試有加上以及沒有加上品質相關的Prompt,還有搭配Negative Prompt去看結果如何。
Same model, differen prompt
這就是產出的結果,而且我有把Seed固定下來(固定Seed會讓我們每次都可以得到完全一樣的產出)。實測證明加上提升品質的Prompt真的可以有效提升產出的圖片品質,然後加上Negative prompt (反向咒語)如果運用得當,可以再次提升輸出的品質,但是也非常可能會大幅度的改變整個圖片的風格。由於詠唱咒語Prompt這個議題博大精深,我這邊肯定會在寫一些文章來深入討論並且實測。
第三個則是我們微調的參數,這部分在Stable Diffusion裡面有好多好多的參數可以調整如下圖
初學者最容易理解的就是解析度(高跟寬),其他的可能就不是那麼容易理解了。Sampling method是取樣的方式,這個方式實測上其實發現會產出不同的圖案,但是跟"產出高品質圖案"沒有絕對的關係,比較多的是快慢的問題。比較相關的則是sampling step/CFG scale,我們直接實驗看看FF
CFG Scale vs sampling steps
看圖可以發現,CFG越高,會產生出來的紋理也就越多 (這可不見得是你想要的),一般大家會說CFG越高,會產生越多符合prompt敘述內容的圖片,但是我們這邊的實驗也會明確看到CFG設定越高,你的step 產圖的布數也要越多才行,否則反而會產出相當不美觀的半成品。以經驗法則來說,我個人喜歡使用Euler a, DPM++2M Karras, DPE++SDE Karras, 然後steps設定在25~30之間不要太高,可以得到比較好的感覺,設定太高有時候反而人物的皺紋跟線條都太多反而失去美感,這邊大家可以各自嘗試看看,找到自己最喜歡的參數。
第四個則是各種Extra Network,這包含了Textual Inversion,LORA還有Hypernetworks, 通常Textual inversion大家會用來做一些風格的調整還有反向咒語(Negative prompt)的調整,Hypernetwork也是有人使用但是以目前的成果來看效果相對不如Lora,所以最常使用的就是LORA了,在沒有深入探討之前,可以把這些Extra Network當成是Stable Diffusion的外掛,這些外掛可以影響生成的圖片的內容/風格,可以用來訓練成
你喜歡的動漫的人物的樣子,或是訓練成你或是你家人的樣子,可以參考
我的這一篇文章。
底下就是同樣的Base model 同樣的Prompt套用了不同LORA的結果,大家可以看看差別。SS
sample prompt/model, different LORA
因為是同樣的Prompt/同樣的base model 但是因為套用了不同的LORA所以風格截然不同,且人物的衣服細節,背景等等也完全不同。善用LORA還可以幫助各位達到不需要加入太多細節在Prompt中,但是就可以得到很繁複的衣飾或是背景的效果,對於該怎麼去找LORA,該LORA產生出來的結果如何? 建議大家時常到
CIVITAI.COM這個網站去看看,有非常多人無私地分享成果,在這邊也是我個人練功常去的地方,很推薦給各位。
以上,跟各位介紹了四個影響產出風格品質最多的要素,說到底,要AI繪圖時代要產出好的產品,除了有好的構想以外,一定要多多嘗試多多犯錯,歡迎大家也給我一些好的建議,我們互相交流,我們下次見囉。