Stable Diffusion基礎 -- 文生圖（txt2img）

子不語

發佈於學習AI繪圖

更新於 2023/05/30發佈於 2023/05/25閱讀時間約 6 分鐘

前言

這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。

一切都要先從最基本的文生圖（txt2img，簡稱t2i）開始。這是Automatic1111開啟之後的第一個頁面，也是最常用最重要的功能：

txt2img的頁面與功能分區

在這個頁面上列了至少十幾個不同的區塊，一開始會讓使用者眼花撩亂不知道什麼是什麼，一開始其實只要會輸入正向與負向提示詞，然後按下Generate按鈕就好。但其實這頁面上能微調的選項，只要用得好，可以大大增強算圖的效果。

功能分區

正向提示詞（Positive prompt）：正向提示詞輸入的地方。告訴AI你想要這張畫有什麼效果。你輸入的正向提示詞會互相影響，甚至互相抵銷。例如輸入金髮，人物就有可能會變成藍眼或綠眼，因為在現實世界中，頭髮顏色跟眼睛顏色是有某種生物性關聯的。AI在訓練時也會學到這種隱性關聯。
負向提示詞（Negative prompt）：負向提示詞輸入的地方。告訴AI你不想要這張畫有什麼效果。但請注意，就算在這邊輸入了，AI也是有機率會使用這個提示詞，只是機率非常非常低。
取樣方法（Sampling method）：AI算圖時採用的方法，不同的取樣方法有可能會算出完全不一樣的圖。
取樣步數（Sampling steps）：AI算圖時的回數，回數越多，越能取得清晰的圖象。回數太少只能算出一堆半成品，但是回數太多並不會讓圖更漂亮，反而是浪費時間。不同的取樣方法能得到成圖的步數也不一樣。基本原則是如果算出的圖還有雜訊或彩色色塊，那就加大取樣步數再算一次。一般來說20到40步即可。
特殊出圖選項：幾個在出圖時的附加選項
Restore faces：修復臉部。AI會在算圖的最後試圖修復人物扭曲的面部。由於現在有非常多可靠的修臉手段，這個功能又常常會把人物的臉修得更扭曲，因此不推薦使用。
Tiling：試圖將圖片變成可拼接的重複圖樣。極少用到。
Hires. fix：將完成圖變大並添加細節。實際上AI會將算好的圖先放大，然後用圖生圖配上完整的提示詞與插件的設定將圖重算一遍。會將算圖時間拉長好幾倍，但是精修美顏效果驚人，如果對產出的圖有信心的話可用。
成品圖的寬與長：尺寸單位是像素。尺寸必須是8的整數倍，預設是長寬皆是512像素。
作業批次設定：告訴AI產圖的數量以及同時運算數量。
Batch count：按下Generate按鍵後跑幾個批次。
Batch size：每個批次內，同時可以運算幾張圖，顯示卡記憶體非常巨大的高階顯卡才建議開到2以上，一般來說保持1即可。
CFG幅度（CFG Scale）：告訴AI要多遵守你下的提示詞。數值越低AI就越奔放，數值越高就越遵守你的提示詞。但是太高會讓圖變得很奇怪。建議數值保持在5到7，在特殊場合才調高或降低以取得特殊效果。
種子（Seed）：每張AI算的圖都是從一個充滿雜訊的圖開始，根據各種設定慢慢將圖變清晰，Seed就是負責產生這個雜訊圖的亂數種子，理論上只要其他設定保持不變，同一個Seed產生的圖會一模一樣。但是所謂的設定有各種因素，例如不同Automatic1111版本，由於使用的函式庫版本不同，導致底層算法也會改變。所以想靠同一個Seed來重現同一張圖，事實上沒有很大的功效。
插件區（Extensions）：各種Automatic1111用來添加額外設定在算圖的插件都會出現在這裡，例如必定要安裝的ControlNet，或者隨機產圖必裝的Dynamic Prompts。
腳本區（Script）：這邊放置的是Automatic1111支援的常用腳本，例如圖片比較用的X/Y/Z plot。
執行按鈕（Generate）：按下後就開始跑圖。在執行途中這一區會變成兩個不同的終止按鈕：
Interrupt：直接終止整個作業，不管之後還有多少圖要跑。
Skip：放棄目前在算的這張圖，跳到下一張繼續。
特殊功能區：這一區放了許多常用的跟直接出圖無關，但是非常重要的功能。由左至右依次為：
Read generation parameters：把從PNG檔案或從Civitai網站抓下的提示詞設定分配到各自應該待的欄位上，請參照 Stable Diffusion提示詞訣竅（二）。
Clear prompt：將正負提示詞欄位的內容清除乾淨。
Show/Hide extra networks：開啟額外模型的按鈕，讓使用者可以讀取諸如已安裝模型（Checkpoints）、LoRA等資訊。
Apply selected styles：將選取的儲存提示詞貼進正負提示詞輸入區。詳情請參照 Stable Diffusion提示詞訣竅（四）。
Save style：如上。
Styles下拉選單：如上。
成品展示區：將算出來的圖，以及ControlNet使用的參考圖展示出來的區塊，在下面有許多按鈕，讓你可以繼續操作：
開啟資料夾：如果是本機操作Automatic1111，就能直接打開檔案管理員看到圖片。
Save：如果是遠端操作Automatic1111，就能產生下載連結，讓你下載檔案
Zip：將所有產生的檔案打包成一個壓縮檔，並且馬上下載。
Send to img2img：將選取的圖傳送到圖生圖（img2img）頁面繼續下一步，也會同時將正負提示詞傳送過去。
Send to inpaint：類似Send to img2img，只是這個按鈕送去的是局部修圖（inpaint）頁面。
Send to extras：類似Send to img2img，只是這個按鈕送去的是額外功能（extras）頁面。目前用於放大功能。