AI繪圖-Stable Diffusion 012- ControlNet 物品類型約束(語義分割)

閱讀時間約 3 分鐘
raw-image

語義分割(Semantic Segmentation)指的就是針對畫面中每個像素點進行辨別分類(山、河流、人、車、沙發….等),並將同一類型的區域分塊標註成特定顏色。而ControlNet的控制約束裡就有這一項功能。

從下方圖示就可以很清楚明瞭何謂語義分割 :

raw-image

(上圖來自網站OneFormer : https://huggingface.co/spaces/shi-labs/OneFormer,很多時後ControlNet本身的Segmentation預處理器辨識分類效果不理想時也可以直接到這網頁上試看看其它演算的效果,產出Segmentation Map 再丟回SD算圖)



Segmentation預處理器 & 實例

ControlNet的Seg預處理器目前有3種,各別預處理圖的效果與成像實例如下圖所示。目前測試下來,絕大多數的情況,seg_ofade20k的效果都比較理想,辨別的準度相較較高。

raw-image
raw-image


Segmentation 的應用

Segmentation的預處理圖讓我想到之前圖生圖裡的Sketch塗鴉功能。只是在用Sketch塗鴉功能時,在提示詞裡多少還是要將畫面的內容物進行文字的描述,告訴SD畫面中我塗鴉的地方各別大約需要些什麼內容物。但如果應用上Segmentation,語義分割事先就將每個不同的顏色定義出特定的物品類型了,我們可以不用再多做文字描述SD就知道該畫些什麼東西出現在畫面中。而且很多時後,當畫面內容物愈複雜時,SD未必就這麼看得懂你所有的文字描述,但語義分割後的區塊則就很明確有效地限制住SD該畫些什麼類型的物品出來。

(PS.題外話~ 在AI繪圖開始熱門後,網路上風氣好像AI繪圖就得要去學很高深複雜的”詠唱術”,非得寫出一堆落落長的文字描述不可才比較厲害,然後就得到處去學/找/抄提示詞來愈加愈長。但我真的很不喜歡這種方式,我還是喜歡圖像盡量可以回歸直覺直觀的用圖去和AI溝通。所以在所有的文章範例中或是平時在用AI產圖時,我都是盡可能的不去寫太多提示詞的文字描述,甚至有時能省就省給它全空白。我相信AI只會愈來愈聰明,未來不斷出現的繪圖模型被餵進去的原圖品質只會愈來愈好,應該不用永遠都需要我很囉唆地去講一堆文字描述說明我的想法或是去規定它的畫質/品質吧~)

我們可以事先把一張看起來符合自己大致理想的畫面構圖進行語義分割,之後再丟進Photoshop裡自行塗鴉調整/增減畫面中的色塊(內容物) :

如下圖,原圖中左邊的草地禿了一塊,我想把它補上,另外左後方再加間小木屋。

raw-image

又或者可以自行查看 Segmentation Color Code ,找出每種物品類型對應的顏色來畫張色塊塗鴉稿,再讓SD來生圖。

從Color Code裡找到Lake的色碼是”#0ABED4″,同樣上面這張風景圖我就再加上個門前有湖、門口出入的道路改道繞一下…..

raw-image



 另外一個搭配應用就是,前面文章我們提到過Depth深度約束能夠表達畫面物品前後深度關係,但並無法紀錄下不同深度下的內容物品分別是什麼,而現在Seg則是可以標註畫面區塊的內容物類別,可是它是平面的,缺少深度的訊息。

那麼在使用SD生成圖像必要時我們就可以把這兩者互相配合使用,就像前一篇OpenPose動作姿勢約束裡的案例一樣,有些需要考慮深度前後位置關係的動作光靠骨架圖無法直接產出理想的畫面時,我們就再加一個Depth深度約束來一起使用。

ControlNet的某些約束類型很多時後單一使用並不這麼好用/或是無法有效解決問題,總是會覺得還不夠精準明確/有點廢。但其實就是要多花些時間/耐心,想一下把各種組合搭配試看看/截長補短,同時也可以結合原本所學過的其它軟體應用一起實驗。最後會發現很多功能再廢,經過思考配合,在某些特定時後它也是能發揮出大作用的~

記錄店小二建立網賺被動收入歷程、自我學習成長以及各類財富自由資訊的分享專區。
留言0
查看全部
發表第一個留言支持創作者!
ControlNet的OpenPose是一開始最主要引起大家關注的一項約束類型。透過提取出原圖中人物的動作姿勢骨架圖,讓我們可以更精準地做到對成像人物姿勢的掌控,即使是一些光靠文字描述也形容不出的動作姿勢,也能輕易實現。 OpenPose 預處理器 & 實例 OpenPose目前的預處理器有
ControlNet的Depth可以提取出畫面中人物/物體的前後關系/前景後景的分別,而Normal(法線)則可以紀錄出畫面中物體的凹凸面訊息。透過這兩種ControlNet約束類型,就可以幫助我們對成像的空間深度關係與物體的凹凸立體感/亮面暗面的光影效果進行約束控制。 Depth Dept
ControlNet裡,目前針對邊緣檢測進行線條約束的類型分別有Cannny、Lineart、SoftEdge、Scribble以及MLSD。
雖然有了圖生圖讓我們除了文字描述外,能利用圖片參照的方式對Stable Diffusion生成結果進行引導,但它仍然還有許多不足的地方。有些時後我並不想整張圖都完全參照,只是想提取出參考圖中單一/部分的特定元素(構圖、人物/物體間空間關係、配色、肢體動作、外觀輪廓……等)來對生成的圖像結果進行約束.
外掛擴充 Extensions對Stable Diffusion來說非重要,如果少了它,SD就不會如此豐富多元,比起其它繪圖AI更具可玩性。在開始介紹一些好用實用的外掛前,我們先來了解一下WebUi上所有外掛程式安裝、更新、移除與備份的方法。
雖然有了文生圖、圖生圖可以負責幫我們畫圖/算圖,但使用文生圖或圖生圖在算圖時,目前依電腦顯卡設備的不同,都有一定的極限值在,想要直接畫出4k、8k或者是16k以上的高清圖又不爆顯存實在有困難。因此我們就需要有能夠把小圖高清放大的功能(Extras頁籤底下的智慧放大-Upscale)。 Extr
ControlNet的OpenPose是一開始最主要引起大家關注的一項約束類型。透過提取出原圖中人物的動作姿勢骨架圖,讓我們可以更精準地做到對成像人物姿勢的掌控,即使是一些光靠文字描述也形容不出的動作姿勢,也能輕易實現。 OpenPose 預處理器 & 實例 OpenPose目前的預處理器有
ControlNet的Depth可以提取出畫面中人物/物體的前後關系/前景後景的分別,而Normal(法線)則可以紀錄出畫面中物體的凹凸面訊息。透過這兩種ControlNet約束類型,就可以幫助我們對成像的空間深度關係與物體的凹凸立體感/亮面暗面的光影效果進行約束控制。 Depth Dept
ControlNet裡,目前針對邊緣檢測進行線條約束的類型分別有Cannny、Lineart、SoftEdge、Scribble以及MLSD。
雖然有了圖生圖讓我們除了文字描述外,能利用圖片參照的方式對Stable Diffusion生成結果進行引導,但它仍然還有許多不足的地方。有些時後我並不想整張圖都完全參照,只是想提取出參考圖中單一/部分的特定元素(構圖、人物/物體間空間關係、配色、肢體動作、外觀輪廓……等)來對生成的圖像結果進行約束.
外掛擴充 Extensions對Stable Diffusion來說非重要,如果少了它,SD就不會如此豐富多元,比起其它繪圖AI更具可玩性。在開始介紹一些好用實用的外掛前,我們先來了解一下WebUi上所有外掛程式安裝、更新、移除與備份的方法。
雖然有了文生圖、圖生圖可以負責幫我們畫圖/算圖,但使用文生圖或圖生圖在算圖時,目前依電腦顯卡設備的不同,都有一定的極限值在,想要直接畫出4k、8k或者是16k以上的高清圖又不爆顯存實在有困難。因此我們就需要有能夠把小圖高清放大的功能(Extras頁籤底下的智慧放大-Upscale)。 Extr
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
近日看到马来西亚新闻报道,对 AI 数字化对就业市场会有什么影响做出报道。而马来西亚人资部研究报告在月杪出炉,指的是,应对 21 世纪经济挑战的指南,进而做好准备为受影响行业的员工提供培训。这是一项我国劳动力和就业市场影响的研究报告,报告中可看到未来3到5年内,某些工作岗位将会发生什么事。 不
Thumbnail
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
ControlNet的Inpaint主要功能和我們過去圖生圖裡的Inpaint局部重繪大致是一樣的作用,而其中一個預處理器(inpaint_only_lama)還可以產出不錯的背景填充延伸圖(Outpainting)。
Thumbnail
中二病少女這次去了外星球,化身複製人大軍,身穿帝國的暴風兵裝備,這次一樣用realistic fantasy模型,再搭配其他的(你知道的專作瑟瑟圖的那種模型)試試看效果,去呈現荒涼外星球的戰鬥。但星際大戰的光劍始終都很怪很可笑,等下可以看。 這次表情沒下提示詞連笑都不笑,同伴倒下也呈現呆滯狀,表現的
Thumbnail
tensor.art是一個很新的AI繪圖網站,目前還沒看到有什麼廣告或是業配,目前僅在Stable Diffusion 台灣社群v2社團看到一兩篇廣告跟介紹而已。 目前還沒有具體的營利模式,每天有100個繪圖點可以畫100張圖,但也因為還沒有營利模式,所以就算你想花錢買點數也沒得買。
Thumbnail
這篇文章講解在stable diffusion webui上安裝SDXL。 在stable diffusion webui上使用SDXL的步驟不難,比較要注意的是SDXL的幾個重點差異,你要先依這個差異來評估自己是否要升級,以免白忙一場。
Thumbnail
在我們上一篇文章中,提到了生成AI Art QR Code的方法。今天這一篇中我們要實戰另一種生成AI QR Code的方法。上一篇的方法需要由經由 X/Y/Z測試去獲得最佳的參數,且套用不同的Model/Lora都需要去找最佳的甜蜜點,這樣難免比較累一點,今天我會介紹一個方式,是相對比較穩定的做法
Thumbnail
  已經玩SD好一陣子的人應該已經發現,很多名字帶有「Mix」且比較有名的checkpoint模型基本上就是在互相「抄來抄去」,而且在女角方面很多只使用了極少的人物重點訓練,導致算出來的臉常常「都長一個樣」。   那麼,該怎麼辦呢?
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
近日看到马来西亚新闻报道,对 AI 数字化对就业市场会有什么影响做出报道。而马来西亚人资部研究报告在月杪出炉,指的是,应对 21 世纪经济挑战的指南,进而做好准备为受影响行业的员工提供培训。这是一项我国劳动力和就业市场影响的研究报告,报告中可看到未来3到5年内,某些工作岗位将会发生什么事。 不
Thumbnail
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
ControlNet的Inpaint主要功能和我們過去圖生圖裡的Inpaint局部重繪大致是一樣的作用,而其中一個預處理器(inpaint_only_lama)還可以產出不錯的背景填充延伸圖(Outpainting)。
Thumbnail
中二病少女這次去了外星球,化身複製人大軍,身穿帝國的暴風兵裝備,這次一樣用realistic fantasy模型,再搭配其他的(你知道的專作瑟瑟圖的那種模型)試試看效果,去呈現荒涼外星球的戰鬥。但星際大戰的光劍始終都很怪很可笑,等下可以看。 這次表情沒下提示詞連笑都不笑,同伴倒下也呈現呆滯狀,表現的
Thumbnail
tensor.art是一個很新的AI繪圖網站,目前還沒看到有什麼廣告或是業配,目前僅在Stable Diffusion 台灣社群v2社團看到一兩篇廣告跟介紹而已。 目前還沒有具體的營利模式,每天有100個繪圖點可以畫100張圖,但也因為還沒有營利模式,所以就算你想花錢買點數也沒得買。
Thumbnail
這篇文章講解在stable diffusion webui上安裝SDXL。 在stable diffusion webui上使用SDXL的步驟不難,比較要注意的是SDXL的幾個重點差異,你要先依這個差異來評估自己是否要升級,以免白忙一場。
Thumbnail
在我們上一篇文章中,提到了生成AI Art QR Code的方法。今天這一篇中我們要實戰另一種生成AI QR Code的方法。上一篇的方法需要由經由 X/Y/Z測試去獲得最佳的參數,且套用不同的Model/Lora都需要去找最佳的甜蜜點,這樣難免比較累一點,今天我會介紹一個方式,是相對比較穩定的做法
Thumbnail
  已經玩SD好一陣子的人應該已經發現,很多名字帶有「Mix」且比較有名的checkpoint模型基本上就是在互相「抄來抄去」,而且在女角方面很多只使用了極少的人物重點訓練,導致算出來的臉常常「都長一個樣」。   那麼,該怎麼辦呢?