VLAD SD-XL 0.9搶先玩 | Stable Diffusion

更新 發佈閱讀 11 分鐘

最近 Stability AI 的 SD-XL(Stable Diffusion XL) 即將完工。原先只有 ComfyUI 能支援,但最近注意到 Vlad 也有支援了,遂嘗試了一下。

若不知道 Vlad 是什麼,請參閱本專題的 Vlad 子分頁中的文章。包括進化的Automatic1111:Vlad Diffusion - Stable Diffusion。 

現階段無論是 SD-XL 還是 Vlad 的 SD-XL 支援,都屬於實驗中的階段,所以這篇心得就不談基礎的東西了。


P.S.只想看圖的話請直接至使用感想


安裝流程 | HUGGINGFACE跑不掉

請先更新Vlad到最新版

在 automatic (或是其他的安裝資料夾)目錄中打開 cmd,輸入:
git pull https://github.com/vladmandic/automatic

可參閱Vlad webui更新流程 - Stable Diffusion

Vlad 的更新非常頻繁,所以有可能更新後看到和這篇心得略有不同的UI介面。


申請HuggingFace權限

Vlad 無法和 ComfyUI 一樣直接下載 SD-XL 的 .safetensor 模型使用,必須要透過 Vlad 的 Model 頁籤下載。因為 SD-XL 模型是非公開的,無論是使用 ComfyUI 還是 Vlad 都必須註冊 HuggingFace 和申請權限才能取得 SD-XL。

HuggingFace 的註冊流程筆者就不提了,申請開通 SD-XL 使用權限可透過以下網址進行:
https://huggingface.co/stabilityai/stable-diffusion-xl-base-0.9/tree/main

首次嘗試下載 sd_xl_base_0.9.safetensors 檔案時會跳出使用者規範頁面,最下方填寫一些基本資料後提出申請,馬上就會開通權限。


產生Access token

接著要在 HuggingFace 產生自己的 Access Token,在 Vlad 下載 SD-XL 會用到,位置如下面截圖:

在HuggingFace網站前往Settings

在HuggingFace網站前往Settings


前往Access Tokens

前往Access Tokens

點擊 New Token 按鈕即可產生,種類請選 Read。命名隨意,只是讓自己記得該 Token 用在什麼地方:

產生後記得複製,點按Show右邊的兩方塊重疊的按鈕即可

產生後記得複製,點按Show右邊的兩方塊重疊的按鈕即可


安裝、下載SD-XL 0.9

進入 Vlad 介面,前往以下地方:

raw-image

一共需要下載兩個模型,直接在 Select model 中輸入:
stabilityai/stable-diffusion-xl-base-0.9
以及
stabilityai/stable-diffusion-xl-refiner-0.9

然後在 Huggingface token 欄位貼上自己的 Access Token,接著點擊Download model。檔案很大,需耐心等cmd中的進度條跑完。

*Access Token 有可能失效,如果發現下載失敗可產生新 token 再次嘗試。

兩種模型都下載好了後,建議關掉 Vlad 的 cmd 視窗後重開 Vlad。

模型會在models > Diffuers 中以資料夾呈現

模型會在models > Diffuers 中以資料夾呈現

使用前提/設定/注意事項

SD-XL 是基於 Diffuser 模型的演算法,與目前常用的 1.5 不同。能使用的 Sampling Methods 也不同(Vlad 會自行調整)。最重要、影響最大的不同處如下:

  1. 以 1024x1024 圖片訓練而成,所以 Text2Image 時不能用 1.5 習慣的小圖解析度,成果會很爛
  2. SD-XL 的生圖是 2 階段過程,所以才需要下載 base 和 refiner 兩個模型
  3. 更吃 VRAM,但 -lowvram -medvram 保留的效能相對較佳
  4. 無​法使用 1.5 的超級插件 ControlNet
  5. 無法使用 1.5 的 VAE
  6. 可以使用 Textual Inversion、LoRA,但無法使用 1.5 的,必須另外訓練
  7. 無法使用 LyCORIS

因為上述 4~6 的緣故,以及現階段還沒有其他的衍生模型出現,所以 SD-XL 目前的客製化能力比不上 1.5。


切換模式的方法

實際使用方面,最重要的是:

  • 使用 SD-XL 需要切換 Vlad 的模式。

雖然 Vlad 的 Settings >Stable Diffusion  頁籤最底部有選項:

original = 1.5/2.0/2.1 模式 | diffusers = SD-XL 模式

original = 1.5/2.0/2.1 模式 | diffusers = SD-XL 模式

但更乾脆直接的方式是自己製作類似 A1111 的 webui-user.bat,直接啟動時切換。請自己創新的 .txt 檔案後更改副檔名為 .bat,輸入以下內容儲存後放到和 webui.bat 相同的資料夾中,然後啟動 Vlad 時使用自己建立的 .bat 切換模式。

1.5/2.0/2.1 模式:

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS= --backend original

call webui.bat

SD-XL 模式:

@echo off

set PYTHON=
set GIT=
set VENV_DIR=
set COMMANDLINE_ARGS= --backend diffusers

call webui.bat

請注意:切換模式是常駐狀態,也就是切換為 SD-XL 模式後就會維持 SD-XL 模式,直到你切換回 1.5/2.0/2.1 模式。

請注意2:切換模式時Vlad會自動把不支援的插件(extentsions)關掉,但切換回原本模式時不會自動幫忙打開。例如切換為 SD-XL 模式時 ControlNet 會被自動關閉(disabled),但切換回 1.5/2.0/2.1 模式時不會自動打開。


相關設定/注意事項

先說注意事項:

Vlad 的 SD-XL 模式似乎有 memory leak 的問題,也就是算圖後 VRAM 的釋放不完全,所以多算幾張後cmd就會出現高 VRAM 使用量的警語,接著會跑出 VRAM 不足時的半成品或全黑圖片,這時只能關掉 Vlad 重開。

相關設定 | 直接貼截圖供參考:

節省VRAM使用的設定

節省VRAM使用的設定

dpm相關sampling演算法可以嘗試更改紅框中的選項比較不同

dpm相關sampling演算法可以嘗試更改紅框中的選項比較不同

關於 Samplers DPM solver algorithm 其實不是直接和 SD-XL 相關,但筆者首次切換 SD-XL 模式時必須在這個選項套用選擇後,使用 DEIS 等相關演算法才沒有出錯。

總之,SD-XL 模式很多都處於實驗階段,包括無法算到一半 skip/stop,所以要有常常遇到錯誤的心理準備。

使用感想 | SD-XL就像是面對習慣完全不同的藝術家

很多 1.5 的習慣,到了 SD-XL 就不太適用。最主要的有三:

  1. 需要設定 refiner 模型
  2. negative prompts 寫太多反而會有負面效果,而且 1.5 的 Textual Inversion (deep negative 之類)是無效的。
  3. SD-XL 0.9 比較適應自然語言,而且風格包羅萬象,所以風格方面的提示詞不夠明確的話,很難獲得想要的風格。


refiner模型的設定位置如下圖:

raw-image

可以嘗試 none(也就是不使用)的效果,但通常很悲慘:

none

none

有refiner

有refiner

Negative Prompts比較:

Negative prompt: text, watermark,  blurry, painting, 3d render, smooth, plastic, grainy, low-resolution, deep-fried, oversaturated,

Negative prompt: text, watermark, blurry, painting, 3d render, smooth, plastic, grainy, low-resolution, deep-fried, oversaturated,

Negative prompt: bad-hands-5, ng_deepnegative_v1_75t, extra fingers, deformed hands, polydactyl, ((low quality, worst quality, monochrome, greyscale, grayscale, watermark, text, blurry, jpeg artifacts)), cropped, normal quality, ((signature, username, artist name, logo)), cartoon, canvas frame, ((lowres)), disfigured, bad art, deformed, extra limbs, b&w, weird colors, duplicate, morbid, mutilated, mutated hands, poorly drawn hands, poorly drawn face, mutation, ugly,  bad proportions, cloned face, out of frame, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, long neck, skin spots, acnes, skin blemishes, age spot,

Negative prompt: bad-hands-5, ng_deepnegative_v1_75t, extra fingers, deformed hands, polydactyl, ((low quality, worst quality, monochrome, greyscale, grayscale, watermark, text, blurry, jpeg artifacts)), cropped, normal quality, ((signature, username, artist name, logo)), cartoon, canvas frame, ((lowres)), disfigured, bad art, deformed, extra limbs, b&w, weird colors, duplicate, morbid, mutilated, mutated hands, poorly drawn hands, poorly drawn face, mutation, ugly, bad proportions, cloned face, out of frame, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, long neck, skin spots, acnes, skin blemishes, age spot,

風格提示詞比較:

無風格提示詞

無風格提示詞

Japanese anime style | 日式動畫風 - 老實說,不像

Japanese anime style | 日式動畫風 - 老實說,不像

manga style, full color |漫畫風 - 好美式

manga style, full color |漫畫風 - 好美式

Japanese shounen manga style, full color | 日式少年漫畫風 - 還是好美式

Japanese shounen manga style, full color | 日式少年漫畫風 - 還是好美式

Japanese shoujo anime, full color | 日式少女漫畫風 - 懶得吐槽了

Japanese shoujo anime, full color | 日式少女漫畫風 - 懶得吐槽了

畢竟是美國人做的模型,所以可以看出很強烈的美式偏好,包括第一張偏寫實的圖中,亞洲人的臉都是以美式為基準的。

看來只能等未來正式推出後的衍生模型了。


SD-XL懂得點到為止

SD-XL 有一點是優於 1.5 模型的。

1.5 即使是寫實風的模型,生成的圖往往還是有一種莫名的虛假感,很重要的一個原因是 1.5 的模型沒有「取捨觀念」,要細節就一起細節,要清楚就一起清楚,但實際照片和人物往往不是這樣。

SD-XL 在這方面能做出更好的取捨,例如一張近距離頭像照:

又是她

又是她

除了背景和真實照片一樣會模糊外,整個人物也只有焦點的臉部很清楚、細節很明確,其他部分則逐步遞減細節並增加模糊程度。而且即使沒有特別在提示詞中註明打光方法,SD-XL 還是生成很符合戶外的光影感覺。

雖然在 SD-XL 正式推出且開始有客製化模型前,筆者還是會繼續使用 1.5,但個人很期待未來能用 SD-XL 朝擬真更加邁進一步。


祝大家算圖愉快!


後續更新/補充 (最後:2023/07/16)

  1. Vlad 大改版時一如往常bug很多,我使用了 SD-XL 模式後切回原本模式生圖一直出問題,這種時候通常需要等Vlad作者更新版本。
  2. 最近一次更新後,感覺 512x512 大小的 Text2Image 效果也變好了
  3. Img2Img (即使是1.5 模式)最近慢得和垃圾差不多,根本沒有實用性。
封面圖完整版

封面圖完整版


留言
avatar-img
︾黑米BR的沙龍︽
82會員
106內容數
筆者探索各種感興趣事物的紀錄。 *副帳非主流政治沙龍《黑米BR不政確》:https://vocus.cc/user/@BRriceP
2023/11/01
筆者最近開啟連載的小說《M.O.N》是以AI、仿生人、安寧療護為主軸的科幻短篇。書封,按照慣例,是自製;也按照慣例,使用了Stable Diffusion (SD)。
Thumbnail
2023/11/01
筆者最近開啟連載的小說《M.O.N》是以AI、仿生人、安寧療護為主軸的科幻短篇。書封,按照慣例,是自製;也按照慣例,使用了Stable Diffusion (SD)。
Thumbnail
2023/10/04
實際上,筆者的Stable Diffusion (Vlad)依舊有些問題,仍不曉得原因是顯卡、Win11、SSD、Vlad或其他,但會先從更新顯卡驅動和重裝Vlad開始找錯。 現況是Vlad運算了二三張圖後就會因為GPU記憶體不夠的問題開始極度緩慢,因此打擊了我創圖的意願。 另一方面,也是對創作
Thumbnail
2023/10/04
實際上,筆者的Stable Diffusion (Vlad)依舊有些問題,仍不曉得原因是顯卡、Win11、SSD、Vlad或其他,但會先從更新顯卡驅動和重裝Vlad開始找錯。 現況是Vlad運算了二三張圖後就會因為GPU記憶體不夠的問題開始極度緩慢,因此打擊了我創圖的意願。 另一方面,也是對創作
Thumbnail
2023/09/20
想著有一陣子沒碰SD,就生成了一張繪圖來致敬。
Thumbnail
2023/09/20
想著有一陣子沒碰SD,就生成了一張繪圖來致敬。
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
Thumbnail
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
Thumbnail
前言 在上一篇文章中,分享了第一次使用 IBM Watsonx 的經歷,以及我對 Prompt lab 功能的初步探索。繼續這個話題,本文將探討 Watsonx 平台對 Python SDK 的支持,以及實作幾個 LLM 的應用,這一特性為開發者提供了極大的便利,使得在此平台上進行開發和應用大型語
Thumbnail
前言 在上一篇文章中,分享了第一次使用 IBM Watsonx 的經歷,以及我對 Prompt lab 功能的初步探索。繼續這個話題,本文將探討 Watsonx 平台對 Python SDK 的支持,以及實作幾個 LLM 的應用,這一特性為開發者提供了極大的便利,使得在此平台上進行開發和應用大型語
Thumbnail
嘗試一個微調金融領域的 LLM:FinGPT (一個追求開源、輕量、低成本的微調在金融領域的 LLM(大型語言模型)),來做新聞標題情感(Sentiment)極性辨識。 PS. 有附註 Hugging Face 模型下載與 cache 路徑自定義說明 因為研究題目,最近在接觸各種金融領域微調(
Thumbnail
嘗試一個微調金融領域的 LLM:FinGPT (一個追求開源、輕量、低成本的微調在金融領域的 LLM(大型語言模型)),來做新聞標題情感(Sentiment)極性辨識。 PS. 有附註 Hugging Face 模型下載與 cache 路徑自定義說明 因為研究題目,最近在接觸各種金融領域微調(
Thumbnail
前面幾個篇章已經大致上介紹了Hugging Face這個平台的一些基本概念了,既然我們都能夠在平台上找到各式各樣的模型,而且也能夠照著教學一步步的來下載並使用,但有沒有更簡單的方式呢? 比如說,我們專注在應用端上的開發,AI的推理就藉由平台進行呢? 答案肯定是有的,近期越來越多開源的平台也都開放這
Thumbnail
前面幾個篇章已經大致上介紹了Hugging Face這個平台的一些基本概念了,既然我們都能夠在平台上找到各式各樣的模型,而且也能夠照著教學一步步的來下載並使用,但有沒有更簡單的方式呢? 比如說,我們專注在應用端上的開發,AI的推理就藉由平台進行呢? 答案肯定是有的,近期越來越多開源的平台也都開放這
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News