Stable Diffusion基礎 -- 文生圖(txt2img)

更新 發佈閱讀 7 分鐘

前言

這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。

一切都要先從最基本的文生圖(txt2img,簡稱t2i)開始。這是Automatic1111開啟之後的第一個頁面,也是最常用最重要的功能:

raw-image

在這個頁面上列了至少十幾個不同的區塊,一開始會讓使用者眼花撩亂不知道什麼是什麼,一開始其實只要會輸入正向與負向提示詞,然後按下Generate按鈕就好。但其實這頁面上能微調的選項,只要用得好,可以大大增強算圖的效果。

功能分區

  1. 正向提示詞(Positive prompt):正向提示詞輸入的地方。告訴AI你想要這張畫有什麼效果。你輸入的正向提示詞會互相影響,甚至互相抵銷。例如輸入金髮,人物就有可能會變成藍眼或綠眼,因為在現實世界中,頭髮顏色跟眼睛顏色是有某種生物性關聯的。AI在訓練時也會學到這種隱性關聯。
  2. 負向提示詞(Negative prompt):負向提示詞輸入的地方。告訴AI你不想要這張畫有什麼效果。但請注意,就算在這邊輸入了,AI也是有機率會使用這個提示詞,只是機率非常非常低。
  3. 取樣方法(Sampling method):AI算圖時採用的方法,不同的取樣方法有可能會算出完全不一樣的圖。
  4. 取樣步數(Sampling steps):AI算圖時的回數,回數越多,越能取得清晰的圖象。回數太少只能算出一堆半成品,但是回數太多並不會讓圖更漂亮,反而是浪費時間。不同的取樣方法能得到成圖的步數也不一樣。基本原則是如果算出的圖還有雜訊或彩色色塊,那就加大取樣步數再算一次。一般來說20到40步即可。
  5. 特殊出圖選項:幾個在出圖時的附加選項
    Restore faces:修復臉部。AI會在算圖的最後試圖修復人物扭曲的面部。由於現在有非常多可靠的修臉手段,這個功能又常常會把人物的臉修得更扭曲,因此不推薦使用。
    Tiling:試圖將圖片變成可拼接的重複圖樣。極少用到。
    Hires. fix:將完成圖變大並添加細節。實際上AI會將算好的圖先放大,然後用圖生圖配上完整的提示詞與插件的設定將圖重算一遍。會將算圖時間拉長好幾倍,但是精修美顏效果驚人,如果對產出的圖有信心的話可用。
  6. 成品圖的寬與長:尺寸單位是像素。尺寸必須是8的整數倍,預設是長寬皆是512像素。
  7. 作業批次設定:告訴AI產圖的數量以及同時運算數量。
    Batch count:按下Generate按鍵後跑幾個批次。
    Batch size:每個批次內,同時可以運算幾張圖,顯示卡記憶體非常巨大的高階顯卡才建議開到2以上,一般來說保持1即可。
  8. CFG幅度(CFG Scale):告訴AI要多遵守你下的提示詞。數值越低AI就越奔放,數值越高就越遵守你的提示詞。但是太高會讓圖變得很奇怪。建議數值保持在5到7,在特殊場合才調高或降低以取得特殊效果。
  9. 種子(Seed):每張AI算的圖都是從一個充滿雜訊的圖開始,根據各種設定慢慢將圖變清晰,Seed就是負責產生這個雜訊圖的亂數種子,理論上只要其他設定保持不變,同一個Seed產生的圖會一模一樣。但是所謂的設定有各種因素,例如不同Automatic1111版本,由於使用的函式庫版本不同,導致底層算法也會改變。所以想靠同一個Seed來重現同一張圖,事實上沒有很大的功效。
  10. 插件區(Extensions):各種Automatic1111用來添加額外設定在算圖的插件都會出現在這裡,例如必定要安裝的ControlNet,或者隨機產圖必裝的Dynamic Prompts。
  11. 腳本區(Script):這邊放置的是Automatic1111支援的常用腳本,例如圖片比較用的X/Y/Z plot。
  12. 執行按鈕(Generate):按下後就開始跑圖。在執行途中這一區會變成兩個不同的終止按鈕:
    Interrupt:直接終止整個作業,不管之後還有多少圖要跑。
    Skip:放棄目前在算的這張圖,跳到下一張繼續。
  13. 特殊功能區:這一區放了許多常用的跟直接出圖無關,但是非常重要的功能。由左至右依次為:
    Read generation parameters:把從PNG檔案或從Civitai網站抓下的提示詞設定分配到各自應該待的欄位上,請參照 Stable Diffusion提示詞訣竅(二)
    Clear prompt:將正負提示詞欄位的內容清除乾淨。
    Show/Hide extra networks:開啟額外模型的按鈕,讓使用者可以讀取諸如已安裝模型(Checkpoints)、LoRA等資訊。
    Apply selected styles:將選取的儲存提示詞貼進正負提示詞輸入區。詳情請參照 Stable Diffusion提示詞訣竅(四)
    Save style:如上。
    Styles下拉選單:如上。
  14. 成品展示區:將算出來的圖,以及ControlNet使用的參考圖展示出來的區塊,在下面有許多按鈕,讓你可以繼續操作:
    開啟資料夾:如果是本機操作Automatic1111,就能直接打開檔案管理員看到圖片。
    Save:如果是遠端操作Automatic1111,就能產生下載連結,讓你下載檔案
    Zip:將所有產生的檔案打包成一個壓縮檔,並且馬上下載。
    Send to img2img:將選取的圖傳送到圖生圖(img2img)頁面繼續下一步,也會同時將正負提示詞傳送過去。
    Send to inpaint:類似Send to img2img,只是這個按鈕送去的是局部修圖(inpaint)頁面。
    Send to extras:類似Send to img2img,只是這個按鈕送去的是額外功能(extras)頁面。目前用於放大功能。


在這之中要特別一提的是Hires. fix,在進階的應用技巧中,會非常頻繁使用各種插件,很多的插件的設定會在Hires. fix的時候一並套用,所以效果會比單純的放大圖之後再圖生圖還華麗,例如這張768X512的原圖:

raw-image

經過Hires. fix的調整放大成兩倍後,細節更加豐富,歪掉的臉也被自動修正了:

raw-image


留言
avatar-img
子不語怪・力・亂・神
37.0K會員
452內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
2023/06/20
本篇要來講解一下身為Automatic1111最重要的外掛ControlNet的安裝方法。
Thumbnail
2023/06/20
本篇要來講解一下身為Automatic1111最重要的外掛ControlNet的安裝方法。
Thumbnail
2023/06/14
本篇要來解說Automatic1111這個軟體很重要的一部分,就是外掛(Extension)管理。 外掛是Automatic1111之所以超越玩具與學術研究工具,成為有生產力的軟體的關鍵。
Thumbnail
2023/06/14
本篇要來解說Automatic1111這個軟體很重要的一部分,就是外掛(Extension)管理。 外掛是Automatic1111之所以超越玩具與學術研究工具,成為有生產力的軟體的關鍵。
Thumbnail
2023/06/08
本篇要來講述兩個很少用,而且也會讓人很困惑的小功能,塗鴉(Sketch)與局部塗鴉(Inpaint Sketch)。
Thumbnail
2023/06/08
本篇要來講述兩個很少用,而且也會讓人很困惑的小功能,塗鴉(Sketch)與局部塗鴉(Inpaint Sketch)。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
玩AI手繪也不錯<Stable Diffusion篇> 在當今數碼時代,照片成為人們記錄生活的重要方式。然而,有時我們渴望將照片轉化為更加藝術性的形式,以獨特的風格呈現。這就是人工智能的力量發揮作用的時候了。利用深度學習和計算機視覺技術,研究人員開發出了一種令人驚嘆的AI技術,可以將照片轉換為手繪效
Thumbnail
玩AI手繪也不錯<Stable Diffusion篇> 在當今數碼時代,照片成為人們記錄生活的重要方式。然而,有時我們渴望將照片轉化為更加藝術性的形式,以獨特的風格呈現。這就是人工智能的力量發揮作用的時候了。利用深度學習和計算機視覺技術,研究人員開發出了一種令人驚嘆的AI技術,可以將照片轉換為手繪效
Thumbnail
這篇來探索一下目前在Automatic1111底下如何控制畫面的光影。光影在AI算圖中其實難度不小,尤其是想要產生特定位置或特定效果的光影,往往要用到很多綜合手段才能做到。
Thumbnail
這篇來探索一下目前在Automatic1111底下如何控制畫面的光影。光影在AI算圖中其實難度不小,尤其是想要產生特定位置或特定效果的光影,往往要用到很多綜合手段才能做到。
Thumbnail
這一篇要來敘述Stable Diffusion的Automatic1111的局部重繪(Inpaint)功能。
Thumbnail
這一篇要來敘述Stable Diffusion的Automatic1111的局部重繪(Inpaint)功能。
Thumbnail
這一篇要來敘述Stable Diffusion的Automatic1111的圖生圖(img2img,簡稱i2i)功能。
Thumbnail
這一篇要來敘述Stable Diffusion的Automatic1111的圖生圖(img2img,簡稱i2i)功能。
Thumbnail
這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。 一切都要先從最基本的文生圖(txt2img)開始。這是Automatic1111開啟之後的第一個頁面,也是最常用最重要的功能。
Thumbnail
這一篇要開始來敘述Stable Diffusion的Automatic1111的基礎功能。 一切都要先從最基本的文生圖(txt2img)開始。這是Automatic1111開啟之後的第一個頁面,也是最常用最重要的功能。
Thumbnail
當我們算圖時,有一種特殊情況是,我們對於整張圖的結果都很滿意,但是想要調整人物的表情。我們可以這樣做......
Thumbnail
當我們算圖時,有一種特殊情況是,我們對於整張圖的結果都很滿意,但是想要調整人物的表情。我們可以這樣做......
Thumbnail
簡單訣竅,如何把模組與LoRA預覽圖放進Automatic1111顯示。
Thumbnail
簡單訣竅,如何把模組與LoRA預覽圖放進Automatic1111顯示。
Thumbnail
這篇文章來講一個很少人用,但是很有趣的提示詞用法 -- 提示詞編輯(Prompt editing)。
Thumbnail
這篇文章來講一個很少人用,但是很有趣的提示詞用法 -- 提示詞編輯(Prompt editing)。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News