更新於 2023/05/30閱讀時間約 6 分鐘

Stable Diffusion基礎 -- 文生圖(txt2img)

前言

這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。
一切都要先從最基本的文生圖(txt2img,簡稱t2i)開始。這是Automatic1111開啟之後的第一個頁面,也是最常用最重要的功能:
txt2img的頁面與功能分區
txt2img的頁面與功能分區
在這個頁面上列了至少十幾個不同的區塊,一開始會讓使用者眼花撩亂不知道什麼是什麼,一開始其實只要會輸入正向與負向提示詞,然後按下Generate按鈕就好。但其實這頁面上能微調的選項,只要用得好,可以大大增強算圖的效果。

功能分區

  1. 正向提示詞(Positive prompt):正向提示詞輸入的地方。告訴AI你想要這張畫有什麼效果。你輸入的正向提示詞會互相影響,甚至互相抵銷。例如輸入金髮,人物就有可能會變成藍眼或綠眼,因為在現實世界中,頭髮顏色跟眼睛顏色是有某種生物性關聯的。AI在訓練時也會學到這種隱性關聯。
  2. 負向提示詞(Negative prompt):負向提示詞輸入的地方。告訴AI你不想要這張畫有什麼效果。但請注意,就算在這邊輸入了,AI也是有機率會使用這個提示詞,只是機率非常非常低。
  3. 取樣方法(Sampling method):AI算圖時採用的方法,不同的取樣方法有可能會算出完全不一樣的圖。
  4. 取樣步數(Sampling steps):AI算圖時的回數,回數越多,越能取得清晰的圖象。回數太少只能算出一堆半成品,但是回數太多並不會讓圖更漂亮,反而是浪費時間。不同的取樣方法能得到成圖的步數也不一樣。基本原則是如果算出的圖還有雜訊或彩色色塊,那就加大取樣步數再算一次。一般來說20到40步即可。
  5. 特殊出圖選項:幾個在出圖時的附加選項 Restore faces:修復臉部。AI會在算圖的最後試圖修復人物扭曲的面部。由於現在有非常多可靠的修臉手段,這個功能又常常會把人物的臉修得更扭曲,因此不推薦使用。 Tiling:試圖將圖片變成可拼接的重複圖樣。極少用到。 Hires. fix:將完成圖變大並添加細節。實際上AI會將算好的圖先放大,然後用圖生圖配上完整的提示詞與插件的設定將圖重算一遍。會將算圖時間拉長好幾倍,但是精修美顏效果驚人,如果對產出的圖有信心的話可用。
  6. 成品圖的寬與長:尺寸單位是像素。尺寸必須是8的整數倍,預設是長寬皆是512像素。
  7. 作業批次設定:告訴AI產圖的數量以及同時運算數量。 Batch count:按下Generate按鍵後跑幾個批次。 Batch size:每個批次內,同時可以運算幾張圖,顯示卡記憶體非常巨大的高階顯卡才建議開到2以上,一般來說保持1即可。
  8. CFG幅度(CFG Scale):告訴AI要多遵守你下的提示詞。數值越低AI就越奔放,數值越高就越遵守你的提示詞。但是太高會讓圖變得很奇怪。建議數值保持在5到7,在特殊場合才調高或降低以取得特殊效果。
  9. 種子(Seed):每張AI算的圖都是從一個充滿雜訊的圖開始,根據各種設定慢慢將圖變清晰,Seed就是負責產生這個雜訊圖的亂數種子,理論上只要其他設定保持不變,同一個Seed產生的圖會一模一樣。但是所謂的設定有各種因素,例如不同Automatic1111版本,由於使用的函式庫版本不同,導致底層算法也會改變。所以想靠同一個Seed來重現同一張圖,事實上沒有很大的功效。
  10. 插件區(Extensions):各種Automatic1111用來添加額外設定在算圖的插件都會出現在這裡,例如必定要安裝的ControlNet,或者隨機產圖必裝的Dynamic Prompts。
  11. 腳本區(Script):這邊放置的是Automatic1111支援的常用腳本,例如圖片比較用的X/Y/Z plot。
  12. 執行按鈕(Generate):按下後就開始跑圖。在執行途中這一區會變成兩個不同的終止按鈕: Interrupt:直接終止整個作業,不管之後還有多少圖要跑。 Skip:放棄目前在算的這張圖,跳到下一張繼續。
  13. 特殊功能區:這一區放了許多常用的跟直接出圖無關,但是非常重要的功能。由左至右依次為: Read generation parameters:把從PNG檔案或從Civitai網站抓下的提示詞設定分配到各自應該待的欄位上,請參照Stable Diffusion提示詞訣竅(二) 。 Clear prompt:將正負提示詞欄位的內容清除乾淨。 Show/Hide extra networks:開啟額外模型的按鈕,讓使用者可以讀取諸如已安裝模型(Checkpoints)、LoRA等資訊。 Apply selected styles:將選取的儲存提示詞貼進正負提示詞輸入區。詳情請參照 Stable Diffusion提示詞訣竅(四) 。 Save style:如上。 Styles下拉選單:如上。
  14. 成品展示區:將算出來的圖,以及ControlNet使用的參考圖展示出來的區塊,在下面有許多按鈕,讓你可以繼續操作: 開啟資料夾:如果是本機操作Automatic1111,就能直接打開檔案管理員看到圖片。 Save:如果是遠端操作Automatic1111,就能產生下載連結,讓你下載檔案 Zip:將所有產生的檔案打包成一個壓縮檔,並且馬上下載。 Send to img2img:將選取的圖傳送到圖生圖(img2img)頁面繼續下一步,也會同時將正負提示詞傳送過去。 Send to inpaint:類似Send to img2img,只是這個按鈕送去的是局部修圖(inpaint)頁面。 Send to extras:類似Send to img2img,只是這個按鈕送去的是額外功能(extras)頁面。目前用於放大功能。
在這之中要特別一提的是Hires. fix,在進階的應用技巧中,會非常頻繁使用各種插件,很多的插件的設定會在Hires. fix的時候一並套用,所以效果會比單純的放大圖之後再圖生圖還華麗,例如這張768X512的原圖:
768x512的原圖
經過Hires. fix的調整放大成兩倍後,細節更加豐富,歪掉的臉也被自動修正了:
使用Hires. fix提升畫質的完成圖
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.