Stable Diffusion進階 -- ControlNet新功能Reference

更新於 發佈於 閱讀時間約 6 分鐘

正文

今天要來看一個ControlNet新出的模型 -- Reference以及它的一些用法。
上個星期ControlNet發佈了更新版v1.1.167,其中包含了一個很好玩的新前置處理器 -- reference_only。這是一個很好玩的東西,它模仿了一個Inpaint的技巧,就是故意生成雙胞胎。
Stable Diffusion有個很煩人的特性,就是如果畫布尺寸過大,AI會有很大機率產生一模一樣但是姿態不同的人物或動物來填充畫布。解決雙胞胎效果的方法通常是先從小尺寸畫布開始,然後用Hires. fix或Upscaling擴展尺寸並加細節。
但是雙胞胎效果也有一個很好玩的應用,就是故意製造雙胞胎效果,藉以製造相似但是型態不一樣的角色。
以這張狗狗圖為例,用512x512來製圖,然後在繪圖軟體裡面將圖擴展成1024x512,新的地方留白,然後放進Inpaint裡面將留白的地方選擇起來:
左邊是原圖,右邊是空白區域
接著用:
  • Masked Content: Latent Noise
  • Denoising strength: 約0.75
這樣跑了幾張圖之後,有很大機率可以刷到非常相似的雙胞胎。
故意使用雙胞胎效應
而ControlNet的Reference就是重現相似的方法,但是能更精緻操控出圖的走向,並且避免這種方法的繁瑣以及頻繁的崩圖。
範例圖
以這張圖為範例,在txt2img內,把ControlNet的preprocessor設定為reference_only。將範例圖拉進ControlNet,其他設定都維持一樣,就可以開始跑了!
ControlNet的reference_only設定
我們在這邊只用簡單的正向提示詞來跑圖:
(extremely detailed CG unity 8k wallpaper), best quality, masterpiece , hdr, ultra highres, 1girl, blunt hair, black long hair, white kimono,
dynamic pose, dynamic angle,
from above, slight smiling
Reference功能可以僅靠著這麼粗略的提示詞,就幫你畫出以範例圖為參考而產生的人物。我在提示詞中沒有提到帽子,所以產出的人物圖也不會有帽子。
這些提示詞必須先測試過,確定了產出的成果圖有你需要的元素,如果沒有的話,就自行增加提示詞來補上。例如我的範例圖中,Reference並沒有提取瀏海與髮色的特徵,所以要自己補上blunt bangs(齊眉劉海)與black long hair(黑長髮)。
然後加上了dynamic pose, dynamic angle等提示詞,讓產出的角色可以有更多的姿勢,用from above, slight smiling讓角色有更多的攝影角度與表情,之後再使用X/Y/Z plot來產出各種組合的圖。
成果圖
就這樣,產生了好幾張與參考圖非常相似,但是表情,角度都有稍微不同的成果圖。
這個功能的用途,我能想到的第一個用途就是拿來當LoRA的訓練素材。通常LoRA訓練需要用到20張到40張的素材圖,最好是多角度多表情多光影,存粹使用提示詞來產生素材圖通常很難張張相像,所以使用Reference來產生一批表情各異、角度微調的類似圖片,可以省下很多時間。
第二個用途就是結合ControlNet的其他功能,例如openpose來固定出圖人物的姿勢與角度,產生一個指定的角色圖,例如配合使用openpose來出圖:
ControlNet的openpose設定
複數ControlNet合作的成品
另一個用途就是讓我們能不使用LoRA就在不同模型間產生一個類似的角色圖,在某些情況下直接跳過訓練LoRA的階段,直接算圖快速滿足一些特定需求。
例如我們想在revAnimated這個模型產生哥布林,但是它產生的樣子與RPGV4模型產生的相差很多,而我想要RPGv4的哥布林外型,但又要在revAnimated產生比較柔和的皮膚感覺:
左圖為RPGv4的哥布林,右圖為revAnimated的哥布林
之前最穩定的做法是使用RPGv4的哥布林圖片訓練一個專門的LoRA,然後在revAnimated裡面使用,但是現在有了這個新功能,就可以直接在目標模型內生成原始模型的角色圖了:
左上是無reference版本的哥布林,右邊六張圖是有reference的哥布林
這樣我們就可以省下訓練LoRA的時間跟資源在烘焙雜兵LoRA上了!

限制

測試了Reference一陣子,發覺這個功能還有許多侷限:
  • 多人畫面會造成參考錯亂,因為AI不知道哪個角色的特徵要對應到成果圖的哪個角色,很常出現特徵錯亂或者多人特徵混合在一起出圖。
  • 3D或真實照片通常都提取不了特徵,成果圖會跟參考圖差異非常大,這可能是Reference模型自己的問題,只能等待作者解決,或者我們能開發出其他方法讓模型能夠正確讀取照片人物的特徵。
祝大家AI算圖愉快!

參考

進階技巧目錄:
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
22.4K會員
409內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
這篇討論一個常見的問題:如何修復修補錯亂的手部姿勢。
這篇要來介紹運用AI生圖將好幾張圖拼湊成一張時,準備工作一定會遇到的問題 -- 圖片去背。我們來看看目前有哪些人工智慧去背功能,以及人工智慧達不到我們要求時的簡單工人智慧去背方法。
像公主抱這種姿勢, 對於Stable Diffusion來說其實異常困難。最主要是因為這個姿勢牽涉兩個人,肢體是互相重疊在一起,而且很多地方都會露出手與手指。更別提通常這是男抱女,兩種不同性別的人物的貼身互動。 於是SD常常會算出惡夢般的成品......
偶而會碰到一種例子,就是在算圖時發現了一個很不錯的全身人物圖,當我將它放大之後,又想要抓個臉部特寫,卻發現人物的臉已經糊掉了。這時我們有個終極方法可以將它清晰化。
這個問題困難的地方在於, 這種類型的動作通常不在AI訓練圖的範圍內,所以它對於很多奇幻世界的概念是一無所知的。在這種情況下,創作者與AI其實有點像是在一艘在迷霧中的海洋航行的船。
當我們算圖時,有一種特殊情況是,我們對於整張圖的結果都很滿意,但是想要調整人物的表情。我們可以這樣做......
這篇討論一個常見的問題:如何修復修補錯亂的手部姿勢。
這篇要來介紹運用AI生圖將好幾張圖拼湊成一張時,準備工作一定會遇到的問題 -- 圖片去背。我們來看看目前有哪些人工智慧去背功能,以及人工智慧達不到我們要求時的簡單工人智慧去背方法。
像公主抱這種姿勢, 對於Stable Diffusion來說其實異常困難。最主要是因為這個姿勢牽涉兩個人,肢體是互相重疊在一起,而且很多地方都會露出手與手指。更別提通常這是男抱女,兩種不同性別的人物的貼身互動。 於是SD常常會算出惡夢般的成品......
偶而會碰到一種例子,就是在算圖時發現了一個很不錯的全身人物圖,當我將它放大之後,又想要抓個臉部特寫,卻發現人物的臉已經糊掉了。這時我們有個終極方法可以將它清晰化。
這個問題困難的地方在於, 這種類型的動作通常不在AI訓練圖的範圍內,所以它對於很多奇幻世界的概念是一無所知的。在這種情況下,創作者與AI其實有點像是在一艘在迷霧中的海洋航行的船。
當我們算圖時,有一種特殊情況是,我們對於整張圖的結果都很滿意,但是想要調整人物的表情。我們可以這樣做......
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
Thumbnail
Bing目前沒辦法有效固定角色模樣,所以如果想生成同角色、不同場景、動作的圖,要如何實現呢? 我換了一個思路,試作出同人一圖2分格的畫面,歡迎賞圖。
Thumbnail
AI生成圖片並非完全可控,所以需要很多額外手段去控制,這篇要來試試幾個方法讓生成的圖片更加可控。
Thumbnail
這篇的主要目的是搭建出基本可用的Controlnet工作流。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
可能包含敏感內容
一個雙手撫弄頭髮的女生... Tensor.Art 連結在此,登入後可以使用 做同款(Remix) 功能產生類似圖片喔(AI 生圖)。 好的,廢話不多說,直接提供 ControlNet 的 Openpose 圖片~
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
Thumbnail
Bing目前沒辦法有效固定角色模樣,所以如果想生成同角色、不同場景、動作的圖,要如何實現呢? 我換了一個思路,試作出同人一圖2分格的畫面,歡迎賞圖。
Thumbnail
AI生成圖片並非完全可控,所以需要很多額外手段去控制,這篇要來試試幾個方法讓生成的圖片更加可控。
Thumbnail
這篇的主要目的是搭建出基本可用的Controlnet工作流。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
可能包含敏感內容
一個雙手撫弄頭髮的女生... Tensor.Art 連結在此,登入後可以使用 做同款(Remix) 功能產生類似圖片喔(AI 生圖)。 好的,廢話不多說,直接提供 ControlNet 的 Openpose 圖片~