Stable Diffusion基礎 -- 文生圖(txt2img)

更新於 發佈於 閱讀時間約 6 分鐘

前言

這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。
一切都要先從最基本的文生圖(txt2img,簡稱t2i)開始。這是Automatic1111開啟之後的第一個頁面,也是最常用最重要的功能:
txt2img的頁面與功能分區
在這個頁面上列了至少十幾個不同的區塊,一開始會讓使用者眼花撩亂不知道什麼是什麼,一開始其實只要會輸入正向與負向提示詞,然後按下Generate按鈕就好。但其實這頁面上能微調的選項,只要用得好,可以大大增強算圖的效果。

功能分區

  1. 正向提示詞(Positive prompt):正向提示詞輸入的地方。告訴AI你想要這張畫有什麼效果。你輸入的正向提示詞會互相影響,甚至互相抵銷。例如輸入金髮,人物就有可能會變成藍眼或綠眼,因為在現實世界中,頭髮顏色跟眼睛顏色是有某種生物性關聯的。AI在訓練時也會學到這種隱性關聯。
  2. 負向提示詞(Negative prompt):負向提示詞輸入的地方。告訴AI你不想要這張畫有什麼效果。但請注意,就算在這邊輸入了,AI也是有機率會使用這個提示詞,只是機率非常非常低。
  3. 取樣方法(Sampling method):AI算圖時採用的方法,不同的取樣方法有可能會算出完全不一樣的圖。
  4. 取樣步數(Sampling steps):AI算圖時的回數,回數越多,越能取得清晰的圖象。回數太少只能算出一堆半成品,但是回數太多並不會讓圖更漂亮,反而是浪費時間。不同的取樣方法能得到成圖的步數也不一樣。基本原則是如果算出的圖還有雜訊或彩色色塊,那就加大取樣步數再算一次。一般來說20到40步即可。
  5. 特殊出圖選項:幾個在出圖時的附加選項
    Restore faces:修復臉部。AI會在算圖的最後試圖修復人物扭曲的面部。由於現在有非常多可靠的修臉手段,這個功能又常常會把人物的臉修得更扭曲,因此不推薦使用。
    Tiling:試圖將圖片變成可拼接的重複圖樣。極少用到。
    Hires. fix:將完成圖變大並添加細節。實際上AI會將算好的圖先放大,然後用圖生圖配上完整的提示詞與插件的設定將圖重算一遍。會將算圖時間拉長好幾倍,但是精修美顏效果驚人,如果對產出的圖有信心的話可用。
  6. 成品圖的寬與長:尺寸單位是像素。尺寸必須是8的整數倍,預設是長寬皆是512像素。
  7. 作業批次設定:告訴AI產圖的數量以及同時運算數量。
    Batch count:按下Generate按鍵後跑幾個批次。
    Batch size:每個批次內,同時可以運算幾張圖,顯示卡記憶體非常巨大的高階顯卡才建議開到2以上,一般來說保持1即可。
  8. CFG幅度(CFG Scale):告訴AI要多遵守你下的提示詞。數值越低AI就越奔放,數值越高就越遵守你的提示詞。但是太高會讓圖變得很奇怪。建議數值保持在5到7,在特殊場合才調高或降低以取得特殊效果。
  9. 種子(Seed):每張AI算的圖都是從一個充滿雜訊的圖開始,根據各種設定慢慢將圖變清晰,Seed就是負責產生這個雜訊圖的亂數種子,理論上只要其他設定保持不變,同一個Seed產生的圖會一模一樣。但是所謂的設定有各種因素,例如不同Automatic1111版本,由於使用的函式庫版本不同,導致底層算法也會改變。所以想靠同一個Seed來重現同一張圖,事實上沒有很大的功效。
  10. 插件區(Extensions):各種Automatic1111用來添加額外設定在算圖的插件都會出現在這裡,例如必定要安裝的ControlNet,或者隨機產圖必裝的Dynamic Prompts。
  11. 腳本區(Script):這邊放置的是Automatic1111支援的常用腳本,例如圖片比較用的X/Y/Z plot。
  12. 執行按鈕(Generate):按下後就開始跑圖。在執行途中這一區會變成兩個不同的終止按鈕:
    Interrupt:直接終止整個作業,不管之後還有多少圖要跑。
    Skip:放棄目前在算的這張圖,跳到下一張繼續。
  13. 特殊功能區:這一區放了許多常用的跟直接出圖無關,但是非常重要的功能。由左至右依次為:
    Read generation parameters:把從PNG檔案或從Civitai網站抓下的提示詞設定分配到各自應該待的欄位上,請參照 Stable Diffusion提示詞訣竅(二)
    Clear prompt:將正負提示詞欄位的內容清除乾淨。
    Show/Hide extra networks:開啟額外模型的按鈕,讓使用者可以讀取諸如已安裝模型(Checkpoints)、LoRA等資訊。
    Apply selected styles:將選取的儲存提示詞貼進正負提示詞輸入區。詳情請參照 Stable Diffusion提示詞訣竅(四)
    Save style:如上。
    Styles下拉選單:如上。
  14. 成品展示區:將算出來的圖,以及ControlNet使用的參考圖展示出來的區塊,在下面有許多按鈕,讓你可以繼續操作:
    開啟資料夾:如果是本機操作Automatic1111,就能直接打開檔案管理員看到圖片。
    Save:如果是遠端操作Automatic1111,就能產生下載連結,讓你下載檔案
    Zip:將所有產生的檔案打包成一個壓縮檔,並且馬上下載。
    Send to img2img:將選取的圖傳送到圖生圖(img2img)頁面繼續下一步,也會同時將正負提示詞傳送過去。
    Send to inpaint:類似Send to img2img,只是這個按鈕送去的是局部修圖(inpaint)頁面。
    Send to extras:類似Send to img2img,只是這個按鈕送去的是額外功能(extras)頁面。目前用於放大功能。
在這之中要特別一提的是Hires. fix,在進階的應用技巧中,會非常頻繁使用各種插件,很多的插件的設定會在Hires. fix的時候一並套用,所以效果會比單純的放大圖之後再圖生圖還華麗,例如這張768X512的原圖:
768x512的原圖
經過Hires. fix的調整放大成兩倍後,細節更加豐富,歪掉的臉也被自動修正了:
使用Hires. fix提升畫質的完成圖
為什麼會看到廣告
avatar-img
22.4K會員
408內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
隨著人工智能技術的發展,AI 繪圖已經變得常見。Fast Stable Diffusion XL on TPUv5e 是在 Hugging Face 平臺上建立的演示模型,使用 TPU v5e 運行 SDXL 模型,大幅提高了圖像生成速度,生成一張 1024x1024 圖像只需約 10 秒。
Thumbnail
AI 繪圖是一種利用人工智慧技術,根據文字描述,生成出各種風格和主題的圖片的方法,不僅可以讓你實現你的想像力,還可以讓你了解到 AI 的創造力。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
Thumbnail
ComfyUI可以直接將WebUI(A1111算法)生成的圖像拉進介面讀取工作流與提示詞,但是會生成完成不同的圖像,為了讓圖像成果更加接近WebUI(A1111算法)生成的圖像,預設工作流中的部份Nodes需要被替換,且替換完要將一些參數改成A1111。
Thumbnail
這個地址可以讓我一鍵安裝目前所有的開源AI應用,包括: AI繪圖工具:Stable Diffusion的Web UI和comyUI 視訊換臉工具:Face Fusion 聲音課程工具:RVC和XTDS 記住這個地址,它可以讓你一鍵安裝目前所有的開源AI應用。不用管環境配置需要哪一個,直接點擊
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
隨著人工智能技術的發展,AI 繪圖已經變得常見。Fast Stable Diffusion XL on TPUv5e 是在 Hugging Face 平臺上建立的演示模型,使用 TPU v5e 運行 SDXL 模型,大幅提高了圖像生成速度,生成一張 1024x1024 圖像只需約 10 秒。
Thumbnail
AI 繪圖是一種利用人工智慧技術,根據文字描述,生成出各種風格和主題的圖片的方法,不僅可以讓你實現你的想像力,還可以讓你了解到 AI 的創造力。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
Thumbnail
ComfyUI可以直接將WebUI(A1111算法)生成的圖像拉進介面讀取工作流與提示詞,但是會生成完成不同的圖像,為了讓圖像成果更加接近WebUI(A1111算法)生成的圖像,預設工作流中的部份Nodes需要被替換,且替換完要將一些參數改成A1111。
Thumbnail
這個地址可以讓我一鍵安裝目前所有的開源AI應用,包括: AI繪圖工具:Stable Diffusion的Web UI和comyUI 視訊換臉工具:Face Fusion 聲音課程工具:RVC和XTDS 記住這個地址,它可以讓你一鍵安裝目前所有的開源AI應用。不用管環境配置需要哪一個,直接點擊