Stable Diffusion基礎 -- 圖生圖(img2img)

更新於 發佈於 閱讀時間約 5 分鐘

前言

這一篇要來敘述Stable Diffusion的Automatic1111的圖生圖(img2img,簡稱i2i)功能。
在圖生圖的頁面上,大部分的功能跟文生圖的功能一樣,請直接查閱 Stable Diffusion基礎 -- 文生圖(txt2img) ,這邊就不復述了。這邊來討論不一樣的功能:
img2img的頁面與功能分區
這邊最重要的功能是1(圖片放置區)跟4(Denoising strength)。我們之後會常常用到。

功能分區

  1. 圖片放置區:這個區域我們有三個重要的次要區域在這邊,
    第一個是分頁標籤,裡面有圖生圖(img2img),塗鴉(sketch),局部修改(inpaint)等等,我們這邊主要聚焦於圖生圖這功能。
    第二區是圖片放置區,在這裡我們可以用拖曳或者點擊打開檔案選擇器,把自己要修改的圖放入。
    第三區是拷貝圖片到其他區域,在這邊我們可以把同一張圖自由切換到不同功能去,例如你用img2img載入圖片,突然發現其實你要的只是局部修改某個區域,就可以直接按Copy image to Inpaint把圖直接送進inpaint分頁來修改。
  2. 尺寸變動選項:當你的輸出尺寸設定與原先圖片尺寸不一致時,Automatic1111就會依照這邊選取的選項來調整畫面:
    Just resize:無視比例,直接把圖片縮放成目標尺寸(原圖內容無損失,但比例可能扭曲)。
    Crop and resize:依照目標尺寸的比例,先把多餘的內容都去除掉再縮放到目標尺寸(會損失原圖的內容)。
    Resize and fill:依照目標尺寸的比例,在不足的地方填充雜訊,然後縮放到目標尺寸,接下來靠img2img來把雜訊轉換成有意義的內容(會增加原圖的內容)。
    Just resize (latent upscale):與第一個功能Just resize相同,但是Just resize是直接縮放,而這個選項是使用AI放大演算法來縮放圖片,所以需時較久,但是在放大後可能產生比較多的細節(原圖內容無損失,但比例可能扭曲)。
  3. 輸出尺寸設定:我們可以在img2img的時候指定成品圖的新尺寸,有兩種方法:
    Resize to:直接指定成品圖的長與寬。
    Resize by:指定成品圖的放大或縮小倍率,預設是1,也就是不變動。
  4. 去躁力度(Denosing strength):輸出圖片的變動程度。在img2img的第一步,Stable Diffusion會將噪訊加進輸入圖片中,然後依照提示詞的內容來產生圖片。數值越大的話,第一步加入的噪訊就會越多,輸出圖片會差異越大。例如0.1到0.2時,只會在細微的圖樣,陰影產生變化。到了0.4以上,就會對畫面中的小物品產生明顯變化,到了0.6以上會對整張圖的組成產生很明顯的影響,例如人物姿勢與位置,甚至整個構圖都會不一樣。到了1就會產生一個跟輸入圖毫無關聯的圖,其實就等於純粹的文生圖。
    除此之外,AI跑新圖的時間也與去噪力度有關,數值越大就會跑越久。當你設定要跑100步,但是去噪力度為0.1時,它實際上只跑了100*0.1=10步。
  5. 提示詞提取按鈕:讓使用者可以從輸入圖提取可能的提示詞。Automatic1111提供了兩種不同的演算法來提取提示詞。
    Interrogate CLIP:使用OpenAI開發的CLIP演算法來提取提示詞。使用這個方法提取的提示詞使用的是自然英語的語法。由於大部分的網路圖片都是自然英文,而Stable Diffusion使用的是網路圖片以及其敘述來訓練基本模型,所以理論上使用這個方法得到的提示詞在生成真實世界照片時效果較佳。
    Interrogate DeepBooru:針對2D動畫的模型,例如Waifu-DiffusionNovalAI都是從DanBooru這個網站抓圖下來訓練,而這個網站使用的分類標籤系統,就成了DeepBooru這個演算法的基本資料。使用這個方法會提取出以標籤為主的提示詞,以逗號分隔。常用的提示詞如1girl,long hair都是這個提示詞演算法引入的。也因此只有在動漫畫相關的模型裡面,這樣的提示詞才有明顯作用。如果是純粹的Stable Diffusion基本模型,應該沒有自然英文語法來得好用。
下面是一個原版圖片,依照不同的提示詞與0.65的Denoising strength來重繪的比較圖:
img2img之前與之後

參考文件

即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
22.7K會員
417內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
這篇要來詳細解說在文生圖(txt2img)裡面,Hires. fix這個東西到底是用來做什麼,以及他的詳細參數。
這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。 一切都要先從最基本的文生圖(txt2img)開始。這是Automatic1111開啟之後的第一個頁面,也是最常用最重要的功能。
這篇要來詳細解說在文生圖(txt2img)裡面,Hires. fix這個東西到底是用來做什麼,以及他的詳細參數。
這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。 一切都要先從最基本的文生圖(txt2img)開始。這是Automatic1111開啟之後的第一個頁面,也是最常用最重要的功能。
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
Thumbnail
隨著人工智能技術的發展,AI 繪圖已經變得常見。Fast Stable Diffusion XL on TPUv5e 是在 Hugging Face 平臺上建立的演示模型,使用 TPU v5e 運行 SDXL 模型,大幅提高了圖像生成速度,生成一張 1024x1024 圖像只需約 10 秒。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
ComfyUI可以直接將WebUI(A1111算法)生成的圖像拉進介面讀取工作流與提示詞,但是會生成完成不同的圖像,為了讓圖像成果更加接近WebUI(A1111算法)生成的圖像,預設工作流中的部份Nodes需要被替換,且替換完要將一些參數改成A1111。
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
Thumbnail
隨著人工智能技術的發展,AI 繪圖已經變得常見。Fast Stable Diffusion XL on TPUv5e 是在 Hugging Face 平臺上建立的演示模型,使用 TPU v5e 運行 SDXL 模型,大幅提高了圖像生成速度,生成一張 1024x1024 圖像只需約 10 秒。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
ComfyUI可以直接將WebUI(A1111算法)生成的圖像拉進介面讀取工作流與提示詞,但是會生成完成不同的圖像,為了讓圖像成果更加接近WebUI(A1111算法)生成的圖像,預設工作流中的部份Nodes需要被替換,且替換完要將一些參數改成A1111。