AI繪圖-Stable Diffusion 013- ControlNet其它特殊效果 – Shuffle & IP2P

更新於 2024/09/14閱讀時間約 6 分鐘
raw-image

ControlNet 官方的其它特殊效果主要有 Shuffle、Tile、Inpaint、IP2P、Reference,其中Tile和Inpaint會花比較多篇幅就之後另外再介紹,這篇就先來看Shuffle & IP2P & Reference這三種ControlNet成像效果。


Shuffle

Shuffle預處理器會將原本的圖片畫面打散重新洗牌(而且每都是隨機亂數提取),所以同一張原圖每次提取出的預處理圖被打散的樣式會都不一樣。但重點就是提取出原圖的顏色/風格,進而去影響新生成圖像的整體畫風/色調。

先用文生圖簡單生成一張真人照片

raw-image

加入ControlNet Shuffle。這裡雖然所有設定不變,連Seed值也固定住,不過加入ControlNet Shuffle的影響後,風格移植了,但同時無法固定住照片原本的構圖。

raw-image

前面構圖改變太多的問題,雖然也可透過把Control Weight權重調低的方式改善,但又怕權重愈調低了,風格移植的效果愈不明顯。那不如不要去改變權重,只要再加入第二個ControlNet的Canny線條約束來限制住大致的輪廓外觀就好。

再多加一個Canny的線條約束,如此,算是有把清明上河圖的風格/色調移植到新圖上了吧?

raw-image

Shuffle的權重預設的1就差不多很剛好,再低風格效果不明顯,再高又會畫面崩壞 :

raw-image

而前面說的透過把Control Weight權重調低的方式來改善畫面構圖不要被改變太多,但實測再低的權重也是無法很準確有效地定住原構圖的細節,不如線條約束實用 :

raw-image



再來一張套上水墨風格的成像。到這裡一直都是用真人風格的Checkpoint模型,人臉的部分看起來就只是轉黑白色調而已,沒有水墨畫風的質感。

raw-image

如果換成專畫卡通人物的Checkpoint模型(AnythingV3),這樣好像風格移植的效果更明顯些,不是只有顏色移植。所以,在做風格轉換時也需要注意一下所使用的Checkpoint模型與最終想要成像的風格效果搭不搭配。ControlNet提取風格的原圖如果是卡通動畫、二次元、或是像這張水墨風等,想要不是只有顏色/色調的移植,而是要連畫風的質感都時展現出來時,那麼就要記得避開使用專畫三次元真人寫實風格的Checkpoint模型。

raw-image

 

IP2P

IP2P沒有預處理器,它的效果就是可以把一張原圖加上提示詞描述(ex. “make it on fire”),來轉換場景狀態,例如讓場景起火、下雪變冬天…..等。

raw-image

這邊在提示詞的部分,官網上介紹註明 : Also, it seems that instructions like “make it into X” works better than “make Y into X”

從下面的人像圖所下的提示詞就可看出差別。照常理,我會在提示詞裡寫上”make her on fire”或是”make her snow”。但可以明顯發現,這樣原圖的人物會有所改動,幾乎是變成另外一個人。

raw-image

但如果照官網指示,不管是針對場景還是人物,提示詞的開頭都統一寫”make it ……”,會比較理想。如下圖,原圖人物的長相特徵有保留住的情況下做到了場景狀態轉換。

raw-image


Reference

Reference的功用是用來生成與原圖風格內容類似的圖。使用Reference目前有3種預處理器,但並不需要有對應的Control Model。

在官網的示範中(下圖的圖片來源 : https://github.com/Mikubill/sd-webui-controlnet),看起來似乎很好用,好像用一張參照圖,就可以去生成參照圖片中人物/動物的各種變化圖來(固定住人物/動物的特徵去生成變化不同姿態/表情)。

(Prompt “a dog running on grassland, best quality, …”)

raw-image

如此一來,就可以用一張圖去生成訓練LoRa模型時要用到的多張同個人物角色,但不同臉部表情/角度的圖片,或是說,一張參考照片就能搞定固定住人物特徵實現人設統一,那是不是就不需要LoRa了?

看上面狗在草地上奔跑的例子效果很好,但如果放在人物身上時呢 ?

下面圖例讓原圖中戴墨鏡,沒有表情的女孩,加上微笑。在3種Reference預處理器下的效果 :

提示詞 : a girl wearing sunglasses, smile

最後面放了一張關閉ControlNet Reference效果,只有提示詞產出的圖來對比。感覺Reference差不多就是固定住髮型、和在畫面中大致的姿勢構圖。至於你說人的五官長相有沒有像,同一個模型的這些人臉看久了我實在有些臉盲了@@

raw-image

Reference 控制下連刷10張圖 : 有的髮型固定住了,有的衣服特徵固定住。

raw-image

我用動物測試時真的都挺像的,可以連刷10張奔跑姿勢都沒問題,看起來10張都是同一隻狗沒錯。

raw-image

但真人的五官長相我實在刷不出這樣都固定住的效果。而且像上面載太陽眼鏡女孩的例子,如果提示詞裡沒去交代有戴太陽眼鏡的話,那就只會生成一個笑臉女生,差不多的頭髮長度,上半身正面照。如此的話,那我用不用Reference好像差別意義不太大?稍微可輔助固定特徵,但很大呈度上都是靠提示詞細描述和所使用的Checkpoint模型?

最後不死心,再拿張長相比較有辨識度的人像來測看看,加上Reference,看看SD會參照還原畫出怎樣類似的特徵來。

raw-image

提示詞只有”a man, smile”。看得出來,Reference抓住灰白髮色+自然捲特徵(這個是我提示詞沒說明,很明確是Reference的功勞)。

raw-image

總之,目前為止,Referenc我還沒能玩出真的像網上有些標題說的這麼厲害,可以取代LoRa,人設統一之類的地步(是朝這個方向沒錯,只是離穩定品質還有很大的差距)。有時訓練模型的樣本數不夠時或許這個Reference現在可以幫忙加減多提供一些變化的樣本圖,但至於其它,還是先不要太過期待Reference的效果,等它之後再進化/優化的版本/演算效果出現時再說吧~


另外,補充一下前面沒說到Reference預處理器下有個”Style Fidelity (only for “Balanced” mode) “的參數可調整,它是用來控制Reference風格保真度的高低(只在Control Mode是Balanced模式下有效)。

實測圖如下,我是覺得一般都用預設的0.5就可以了,拉低少了相似度,拉太高生成的圖又很容易會畫面崩壞。

raw-image
raw-image

看起來大致上就是Reference_only和Reference_adain+attn,保真度約預設的0.5剛好,而Reference_adain有需要時可以稍微往1的方向拉高,也不至於出現畫面崩壞。

記錄店小二建立網賺被動收入歷程、自我學習成長以及各類財富自由資訊的分享專區。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
語義分割(Semantic Segmentation)指的就是針對畫面中每個像素點進行辨別分類(山、河流、人、車、沙發….等),並將同一類型的區域分塊標註成特定顏色。而ControlNet的控制約束裡就有這一項功能。
ControlNet的OpenPose是一開始最主要引起大家關注的一項約束類型。透過提取出原圖中人物的動作姿勢骨架圖,讓我們可以更精準地做到對成像人物姿勢的掌控,即使是一些光靠文字描述也形容不出的動作姿勢,也能輕易實現。 OpenPose 預處理器 & 實例 OpenPose目前的預處理器有
ControlNet的Depth可以提取出畫面中人物/物體的前後關系/前景後景的分別,而Normal(法線)則可以紀錄出畫面中物體的凹凸面訊息。透過這兩種ControlNet約束類型,就可以幫助我們對成像的空間深度關係與物體的凹凸立體感/亮面暗面的光影效果進行約束控制。 Depth Dept
ControlNet裡,目前針對邊緣檢測進行線條約束的類型分別有Cannny、Lineart、SoftEdge、Scribble以及MLSD。
雖然有了圖生圖讓我們除了文字描述外,能利用圖片參照的方式對Stable Diffusion生成結果進行引導,但它仍然還有許多不足的地方。有些時後我並不想整張圖都完全參照,只是想提取出參考圖中單一/部分的特定元素(構圖、人物/物體間空間關係、配色、肢體動作、外觀輪廓……等)來對生成的圖像結果進行約束.
外掛擴充 Extensions對Stable Diffusion來說非重要,如果少了它,SD就不會如此豐富多元,比起其它繪圖AI更具可玩性。在開始介紹一些好用實用的外掛前,我們先來了解一下WebUi上所有外掛程式安裝、更新、移除與備份的方法。
語義分割(Semantic Segmentation)指的就是針對畫面中每個像素點進行辨別分類(山、河流、人、車、沙發….等),並將同一類型的區域分塊標註成特定顏色。而ControlNet的控制約束裡就有這一項功能。
ControlNet的OpenPose是一開始最主要引起大家關注的一項約束類型。透過提取出原圖中人物的動作姿勢骨架圖,讓我們可以更精準地做到對成像人物姿勢的掌控,即使是一些光靠文字描述也形容不出的動作姿勢,也能輕易實現。 OpenPose 預處理器 & 實例 OpenPose目前的預處理器有
ControlNet的Depth可以提取出畫面中人物/物體的前後關系/前景後景的分別,而Normal(法線)則可以紀錄出畫面中物體的凹凸面訊息。透過這兩種ControlNet約束類型,就可以幫助我們對成像的空間深度關係與物體的凹凸立體感/亮面暗面的光影效果進行約束控制。 Depth Dept
ControlNet裡,目前針對邊緣檢測進行線條約束的類型分別有Cannny、Lineart、SoftEdge、Scribble以及MLSD。
雖然有了圖生圖讓我們除了文字描述外,能利用圖片參照的方式對Stable Diffusion生成結果進行引導,但它仍然還有許多不足的地方。有些時後我並不想整張圖都完全參照,只是想提取出參考圖中單一/部分的特定元素(構圖、人物/物體間空間關係、配色、肢體動作、外觀輪廓……等)來對生成的圖像結果進行約束.
外掛擴充 Extensions對Stable Diffusion來說非重要,如果少了它,SD就不會如此豐富多元,比起其它繪圖AI更具可玩性。在開始介紹一些好用實用的外掛前,我們先來了解一下WebUi上所有外掛程式安裝、更新、移除與備份的方法。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
隨著人工智能技術的發展,AI 繪圖已經變得常見。Fast Stable Diffusion XL on TPUv5e 是在 Hugging Face 平臺上建立的演示模型,使用 TPU v5e 運行 SDXL 模型,大幅提高了圖像生成速度,生成一張 1024x1024 圖像只需約 10 秒。
Thumbnail
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
ControlNet的Inpaint主要功能和我們過去圖生圖裡的Inpaint局部重繪大致是一樣的作用,而其中一個預處理器(inpaint_only_lama)還可以產出不錯的背景填充延伸圖(Outpainting)。
Thumbnail
中二病少女這次去了外星球,化身複製人大軍,身穿帝國的暴風兵裝備,這次一樣用realistic fantasy模型,再搭配其他的(你知道的專作瑟瑟圖的那種模型)試試看效果,去呈現荒涼外星球的戰鬥。但星際大戰的光劍始終都很怪很可笑,等下可以看。 這次表情沒下提示詞連笑都不笑,同伴倒下也呈現呆滯狀,表現的
Thumbnail
tensor.art是一個很新的AI繪圖網站,目前還沒看到有什麼廣告或是業配,目前僅在Stable Diffusion 台灣社群v2社團看到一兩篇廣告跟介紹而已。 目前還沒有具體的營利模式,每天有100個繪圖點可以畫100張圖,但也因為還沒有營利模式,所以就算你想花錢買點數也沒得買。
Thumbnail
這篇文章講解在stable diffusion webui上安裝SDXL。 在stable diffusion webui上使用SDXL的步驟不難,比較要注意的是SDXL的幾個重點差異,你要先依這個差異來評估自己是否要升級,以免白忙一場。
Thumbnail
在我們上一篇文章中,提到了生成AI Art QR Code的方法。今天這一篇中我們要實戰另一種生成AI QR Code的方法。上一篇的方法需要由經由 X/Y/Z測試去獲得最佳的參數,且套用不同的Model/Lora都需要去找最佳的甜蜜點,這樣難免比較累一點,今天我會介紹一個方式,是相對比較穩定的做法
Thumbnail
  已經玩SD好一陣子的人應該已經發現,很多名字帶有「Mix」且比較有名的checkpoint模型基本上就是在互相「抄來抄去」,而且在女角方面很多只使用了極少的人物重點訓練,導致算出來的臉常常「都長一個樣」。   那麼,該怎麼辦呢?
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
隨著人工智能技術的發展,AI 繪圖已經變得常見。Fast Stable Diffusion XL on TPUv5e 是在 Hugging Face 平臺上建立的演示模型,使用 TPU v5e 運行 SDXL 模型,大幅提高了圖像生成速度,生成一張 1024x1024 圖像只需約 10 秒。
Thumbnail
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
ControlNet的Inpaint主要功能和我們過去圖生圖裡的Inpaint局部重繪大致是一樣的作用,而其中一個預處理器(inpaint_only_lama)還可以產出不錯的背景填充延伸圖(Outpainting)。
Thumbnail
中二病少女這次去了外星球,化身複製人大軍,身穿帝國的暴風兵裝備,這次一樣用realistic fantasy模型,再搭配其他的(你知道的專作瑟瑟圖的那種模型)試試看效果,去呈現荒涼外星球的戰鬥。但星際大戰的光劍始終都很怪很可笑,等下可以看。 這次表情沒下提示詞連笑都不笑,同伴倒下也呈現呆滯狀,表現的
Thumbnail
tensor.art是一個很新的AI繪圖網站,目前還沒看到有什麼廣告或是業配,目前僅在Stable Diffusion 台灣社群v2社團看到一兩篇廣告跟介紹而已。 目前還沒有具體的營利模式,每天有100個繪圖點可以畫100張圖,但也因為還沒有營利模式,所以就算你想花錢買點數也沒得買。
Thumbnail
這篇文章講解在stable diffusion webui上安裝SDXL。 在stable diffusion webui上使用SDXL的步驟不難,比較要注意的是SDXL的幾個重點差異,你要先依這個差異來評估自己是否要升級,以免白忙一場。
Thumbnail
在我們上一篇文章中,提到了生成AI Art QR Code的方法。今天這一篇中我們要實戰另一種生成AI QR Code的方法。上一篇的方法需要由經由 X/Y/Z測試去獲得最佳的參數,且套用不同的Model/Lora都需要去找最佳的甜蜜點,這樣難免比較累一點,今天我會介紹一個方式,是相對比較穩定的做法
Thumbnail
  已經玩SD好一陣子的人應該已經發現,很多名字帶有「Mix」且比較有名的checkpoint模型基本上就是在互相「抄來抄去」,而且在女角方面很多只使用了極少的人物重點訓練,導致算出來的臉常常「都長一個樣」。   那麼,該怎麼辦呢?