接續著前篇,接著我要使用圖生圖的方式去達成多人構圖的目的,本篇會使用幾種圖生圖的工作流去測試。
unCLIP是ComfyUI官方提供的一種圖片提示詞處理方式,可以在下面網址獲取工作流,因為需要額外下載模型,而且有其他更好用的節點如IPAdapter,所以不太常看到網友用這個工作流。
https://comfyanonymous.github.io/ComfyUI_examples/unclip/
這個測試流程是用Copilot的Image Creator生成一張類似電影海報的圖片,提示詞如下:
電影海報風格,勇者小隊出動,中古世紀奇幻風格,魔法師,精靈,矮人,戰士,僧侶。
再挑選其中一張來做為來源圖片測試。
unCLIP因為基底模型的關係,用來繪製人像題材效果不會很好,畫人像以外的效果較佳,同時生成圖像品質也會受到圖像尺寸影響畫質,使用512*512跟1024*1024生成的圖片品質差異很大。
下圖是來源圖片跟生成圖片的比較,左邊是來源圖片,右邊是生成圖片。
unCLIP的作用其實是提取圖片元素再輸出到Conditioning,在512*512的圖像尺寸中可以比單純文字提示詞容易生成多人構圖,但是因為會受到畫面元素的交互影響,所以生成的圖片會混雜所有來源圖片的元素,有種汙染的感覺。
這個工作流可以做為圖生圖的草稿使用。
將上個步驟生成的圖片做為來源圖片丟進圖生圖工作流中。
生成的圖片比較如下圖。
經過圖生圖工作流生成的圖片,除了風格受到選用模型的影響外,可以看到構圖跟來源圖片差不多。
圖生圖工作流在風格轉換上只要切換模型就可以達成,只是構圖受到來源圖片限制,過高的denoise值又會與原圖差異過大,甚至變成單人圖片。
下圖分別為denoise=0.6跟denoise=1的比較圖,可以明顯看出差異。
IPAdapter的工作流可以參考這篇ComfyUI 研究 - IPAdapter 簡介。
本篇測試使用的依然是最基本的IPAdapter工作流,來源圖片一樣使用Coplilot生成的圖片。
來源圖片與生成的圖片比較如下。
在這個測試中生成圖片尺寸是512*512,已經可以生成多人構圖,而且有參考到來源圖片的元素,所以想要生成小尺寸圖片的多人構圖,使用IPAdapter比上面兩個方法更加容易。
本篇測試使用的是"單純"的圖生圖工作流,很大程度受到來源圖片的元素、構圖、色彩影響,測試時只有加入品質控制用的文字提示詞,減少添加其他元素進到生成圖片中。
因此本篇的方法比較適合用在生成與來源圖片具備類似元素的圖片,同時將風格轉換成選用的模型。
但是回過頭來思考一開始的目的:生成多人構圖圖片,並讓生成的圖片更加可控。
所以使用單純的圖生圖顯然是不夠的!
下篇,將應用Controlnet來增加可控性。