Stable Diffusion進階 -- X/Y/Z plot

閱讀時間約 6 分鐘
❤️
今天來聊一個我覺得是Script(腳本區)裡面最好用,也是最常用,但是有點複雜的進階功能,X/Y/Z plot。

前言

很多時候,我們有許多重複跑圖,但是一次只改一點點的需求,例如你算到了一個你很喜歡的角色形象,想要使用一樣的提示詞,但是一次改一點東西,例如改變髮色比例,更改服裝,更改一些動作,然後製造大量的圖用做訓練LoRA的範例圖。或者單純是想跑出一個你更喜歡的變體。
或者,你剛訓練完一個新版的LoRA,想要比較新舊版之間的差別,例如權重高低時影響畫面的程度,CFG Scale不一樣會造成什麼改變,改變提示詞會不會被新版LoRA覆蓋掉。
在什麼都不知道的情況下,我們只能一張一張生產,等上一張算好之後再手動更改提示詞,然後繼續跑下一張。這種作法不只無聊,也很容易出錯,如果要測量的選項太多還會累死人,消耗時間與熱情。所以Automatic1111非常貼心地幫我們準備了一個功能,讓我們可以一次跑出大量有細小差別的圖,那就是X/Y/Z plot。

用法

X/Y/Z plot是什麼意思?它的XYZ指的是,我們可以最多設定三種方向的變數讓我們跑圖,例如X方向上選擇提示詞,Y方向上選擇Sampling Steps,Z方向上選擇模型,這樣就能測試在不同模型上,不同Sampling Steps對上不同提示詞所造成的影響。
舉一個例子,當我算出了一個猛男戰士之後,想要快速嘗試不同動作加上不同衣著上的表現,我們就可以選擇X方向上是一組動作提示詞,Y方向上是一組衣著的提示詞。
當我們在Script選單選擇X/Y/Z plot之後,會出現這樣的選單:
空白X/Y/Z plot選單
打開X type,裡面有一堆選項,裡面比較常用到的是:
  • Nothing:什麼都不做
  • Steps:訓練步數
  • CFG Scale:CFG程度
  • Prompt S/R:提示詞搜尋並取代
  • Sampler:採樣器
  • Checkpoint name:模型
  • Styles:你儲存的提示詞
這裡面Prompt S/R是最常用,但也是最難理解的選項,它的用法就是用逗號隔開一組提示詞,而第一個提示詞必須符合一個你的正面或負面提示詞,只要它能找到,就會在之後的圖取代這個提示詞。
例如我的正面提示詞中有(resting)這個提示詞,我就能用這樣的Prompt S/R來取代它:
(resting), (sitting), (standing), (fighting), (angry), (riding horse)
於是Automatic1111就能先跑出該角色休息的圖,然後下一張換成坐下的圖,以此類推。
而且X/Y/Z plot並不限制你只能用一次Prompt S/R,所以理論上XYZ三個軸都能用不同的詞來探索。以我的例子,我的X/Y/Z plot會像是這樣:
而我為了讓每次跑的時候出現的圖盡量產生差異,我會勾選Keep-1 for seeds,讓每張圖都使用亂數種子算圖。
當你按下Generate鈕之後,就可以去睡個午覺了,通常一次都可以跑個十幾二十張。等到你回來,Automatic1111會給你一個拼接的預覽圖:
XY軸預覽圖
在這圖上,從左到右是X軸,從上到下是Y軸。 而這些算出來的圖,則是會放在一般圖生圖的目錄內。

LoRA比較

我個人在用X/Y/Z plot時,最常用的情況是在訓練LoRA時。當我們用了不同的素材,不同的參數或不同的程式版本烘焙LoRA的時候,比較新舊版本的優劣,尤其是LoRA在不同模型時能否正確產生我們要的角色,又不會強烈改動模型風格,就是決定人物型LoRA品質的指標,這時候X/Y/Z plot就非常有用。
例如我想要查看我的舊版LoRA與新版LoRA在不同模型下,不同動作的樣子,我就會設定成:
  • X軸:Checkpoint name => 三個不同模型
  • Y軸:Prompt S/R => 五個不同動作
  • Z軸:Prompt S/R => 新的與舊的LoRA,權重都是0.3
下面就是我跑出來的成果:
X/Y/Z軸同時呈現
預覽圖會有兩種版本,檔案較小的JPG檔,和非常巨大但無失真的PNG檔案。要做深度比較的時候,可以開啟PNG檔在大螢幕上仔細比較。
另外,LoRA自己也能跟自己不同權重做比較,讓你找出在不同模型下,哪個權重是甜蜜點:
以不同LoRA權重為Z軸做比較
順帶一提,我的舊版LoRA在權重0.8的時候就全部崩潰了,不管是哪個模型,出來的動作與背景都一樣。這表示舊版的LoRA品質不佳,而在我新訓練的LoRA上就不太會出現這種情形。這就可以讓我有足夠信心了解我的新版LoRA品質較穩定,可以順利取代舊版。

結語

以上就是我常用的X/Y/Z plot情境,希望可以節省大家手動輸入各種設定,無聊等待跑圖出結果,然後又改詞改設定再跑的時間。
祝大家AI算圖愉快!

進階技巧目錄:
為什麼會看到廣告
avatar-img
22.0K會員
386內容數
寫奇幻小說,畫圖,心得,各式各樣作品的故鄉。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
討論如何補救全身肖像下,AI算到崩潰的小臉。
當我在civitai上面逛模組,發現美圖時,都會把這張圖的提示詞複製下來玩玩看。有些圖會有額外的參數,其中最常看到的就是CLIP Skip 2這個東西。
今天來看看我們在使用Stable Diffusion時,常用的幾個網站。
前言 今天來分享如何把一張彩色圖片轉換成一張漫畫風格的黑白線稿的方法。 例如我想把一張水彩稿,或者一張照片轉換成黑白漫畫稿,不只是簡單地把一張圖換成灰階,而是連線條與陰影都要是漫畫風格。
今天要來講的,是如何使用Stable Diffusion來製作角色設定圖。 經過了好幾次的嘗試之後,我找出了一個最穩定出圖,且步驟最少的方法。
討論如何補救全身肖像下,AI算到崩潰的小臉。
當我在civitai上面逛模組,發現美圖時,都會把這張圖的提示詞複製下來玩玩看。有些圖會有額外的參數,其中最常看到的就是CLIP Skip 2這個東西。
今天來看看我們在使用Stable Diffusion時,常用的幾個網站。
前言 今天來分享如何把一張彩色圖片轉換成一張漫畫風格的黑白線稿的方法。 例如我想把一張水彩稿,或者一張照片轉換成黑白漫畫稿,不只是簡單地把一張圖換成灰階,而是連線條與陰影都要是漫畫風格。
今天要來講的,是如何使用Stable Diffusion來製作角色設定圖。 經過了好幾次的嘗試之後,我找出了一個最穩定出圖,且步驟最少的方法。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Definition N-Shot Prompting 是一種使用可變數量的範例來引導 AI 模型的技
Thumbnail
本策略採用ATR(平均真實波幅)技術指標,該指標能夠真實地反映出價格的波動情況,並且可以靈活地調整參數進行進出場操作。 此策略主要是針對看盤的經驗,將策略轉化為程式進行自動化交易,減少人為的操作,即使沒看盤也能自動化的完成交易。
Thumbnail
  在上篇我們介紹了 SageMaker 中 Pipeline 的使用方法,其中的 TuningStep 功能,能夠讓我們能夠指定一連串參數組合進行實驗比對,最終找出最適合的參數組合
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
Thumbnail
最近在試著用 Tensor Art 訓練 LoRA,老實說,成功率...不太高,或許是我挑選訓練圖片的問題。 但訓練出來,可以給別人用(雖然根本也就是我自己用),就感覺蠻有意思的! 最近,又訓練了一個亂塗鴉的 LoRA(YunQiuLineArt01),我覺得還蠻有趣的,分享給您。
Thumbnail
策略模式將多種演算法封裝於獨立的策略類別中,每個策略類別都實現了一個共同的介面。這種設計允許使用者在系統運行時動態選擇和切換演算法,以達成相同的目的。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
給出好的指令也是一門學問! 我們在業界稱為「指令工程」(Prompt Engineering),OpenAI 官方也有公布指令工程的操作資訊,但是今天我們只要學會這樣的操作方式,你可以贏過現在多數的AI使用者。
Thumbnail
這篇來淺談Multicharts和XQ的基本差異 基本知識 在講差異前,先讓大家知道,程式交易或是量化分析的軟體,其實是有很多選擇的。 當然,每種選擇會有不同的上手難度,以及費用。 通常越底層的語言,上手難度會越難,相對的,靈活性也會比較高。 反之,越高階的語言,上手難度越低,但靈活度
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Definition N-Shot Prompting 是一種使用可變數量的範例來引導 AI 模型的技
Thumbnail
本策略採用ATR(平均真實波幅)技術指標,該指標能夠真實地反映出價格的波動情況,並且可以靈活地調整參數進行進出場操作。 此策略主要是針對看盤的經驗,將策略轉化為程式進行自動化交易,減少人為的操作,即使沒看盤也能自動化的完成交易。
Thumbnail
  在上篇我們介紹了 SageMaker 中 Pipeline 的使用方法,其中的 TuningStep 功能,能夠讓我們能夠指定一連串參數組合進行實驗比對,最終找出最適合的參數組合
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
Thumbnail
最近在試著用 Tensor Art 訓練 LoRA,老實說,成功率...不太高,或許是我挑選訓練圖片的問題。 但訓練出來,可以給別人用(雖然根本也就是我自己用),就感覺蠻有意思的! 最近,又訓練了一個亂塗鴉的 LoRA(YunQiuLineArt01),我覺得還蠻有趣的,分享給您。
Thumbnail
策略模式將多種演算法封裝於獨立的策略類別中,每個策略類別都實現了一個共同的介面。這種設計允許使用者在系統運行時動態選擇和切換演算法,以達成相同的目的。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
給出好的指令也是一門學問! 我們在業界稱為「指令工程」(Prompt Engineering),OpenAI 官方也有公布指令工程的操作資訊,但是今天我們只要學會這樣的操作方式,你可以贏過現在多數的AI使用者。
Thumbnail
這篇來淺談Multicharts和XQ的基本差異 基本知識 在講差異前,先讓大家知道,程式交易或是量化分析的軟體,其實是有很多選擇的。 當然,每種選擇會有不同的上手難度,以及費用。 通常越底層的語言,上手難度會越難,相對的,靈活性也會比較高。 反之,越高階的語言,上手難度越低,但靈活度