AI繪圖-Stable Diffusion 003- 模型分類 & 常用下載網站

2023/08/07 更新2023/08/07 發佈閱讀 5 分鐘

前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝，在正式進入實際操作前，這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。

前言綜合知識 –

Checkpoint、VAE、Embedding(又稱Textual inversion)、Hypernetwork、LoRA和LyCORIS是使用Stable Diffusion時一般常見到的模型種類(另外還有外掛ControlNet所使用到的模型，不過這部分我把它歸類到講外掛擴充時再說明。)

圖像模型的副檔名有很多種，常看到的有.ckpt，.bin，.pth，.safetensors..等。其中.safetensors是後期所開發的檔案模式，.safetensors主要好處就是可以有效避免檔案中被夾帶病毒的風險。現在愈來愈多模型的檔案模式都開始使用.safetensors。因此，當我們在網上尋找模型資源下載時，只要有.safetensors格式可選，就以此為優先。
可供下載模型的網站主要有2個 :
Hugging Face : 這個網站裡大多以官方模型為主，再加上網站都是密密麻麻的文字內容，不夠視覺化方便使用者瀏覽找到喜歡的模型。
Civitai : Civitai裡的模型豐富多元，幾乎所有官方、非官方的模型這裡都找得到。圖像化顯示方式讓人可以更快速了解每個模型的風格特色，以及每個模型頁面中也都會有完整的使用相關說明提示，所以要下載模型時主要都會使用這個網站。

Checkpoint

Checkpoint，一般我們常稱之為大模型/主模型/底模型。一定要有一個主模型在，Stable Diffusion才能進行繪圖。

檔案大小 : 一般至少都在2GB以上

Checkpoint它就是一個包含大量圖片內容訊息的集合，最初要從無到有訓練出一個Checkpoint模型會需要花費大量的預算和時間(數千張的高階顯卡、數十億張的圖片內容、花費數月以上的時間去運算訓練…..)，這通常不是一般人可以負擔得起的。

所以我們在C站上所看到各式各樣豐富多元的Checkpoint模型都是在官方所發布開源的模型基礎上(Base Model)進行修改微調而成。雖然一般我們常會嫌棄官方模型不好用/畫出來的圖不夠好看，都會另外去下載其它微調修改過的非官方模型來使用，但沒有這個官方模型的基礎在就什麼都沒有…。

即使有了官方模型的基礎，讓個人也能自行訓練出所需風格特色的Checkpoint模型，但Checkpoint檔案大小動輒數GB起跳的模型整個重新修改調整，仍然需要相對高階的硬體設備與費時，實在不是很方便。當我們只需要訓練一小部分的風格主題時，並不需要把整個Checkpoint模型都做調整，因此後來才又再延伸發展出了其它更簡潔有效率、輔助形式的模型出現-embedding、Hypernetwork、LoRA、LyCORIS。

Embedding(Textual inversion)

Embedding又稱Textual inversion，它是透過文字提示詞來影響訓練模型所生成圖像的結果。簡言之就是將一堆能產生特定風格/效果/主題的提示詞進行打包(這些提示詞可能需要幾十或是上百行的文字內容才能描寫出我們所需的目的)。也因為檔案內容只是文字合集，所以embedding模型的檔案都很小。

檔案大小 : 一般都是幾十KB大小
功能 : 可以訓練特定人物/物體特徵、動作、畫風，或是做為特定反向提示詞的集合使用。

LoRA

LoRA全名Low-Rank Adaptation of Large Language Models，LoRA是一種用來微調大型語言模型參數的技術，由微軟所提出。現在C站上LoRA訓練出來的模型最常被使用在對特定人物特徵的復刻，但LoRA除了訓練特定人物模型外，也能應用在畫風、固定人物動作等。

檔案大小 : 幾十到上百MB都有
功能 : 可以訓練特定人物/物體特徵、動作、畫風

那麼embedding和LoRA的功能都是可以訓練特定人物/物體特徵、動作、畫風，他們的差別在哪裡？

embedding是文字提示詞的打包，只靠文字描述去影響圖像生成的效果，而LoRA則是由數十張圖片加上相對應的文本資訊去訓練出來的微調模型。光是看檔案大小就知道，一個幾十KB，一個幾十到百多MB，兩者之間各自所內含的數據量就有所差別。一般來說都會是LoRA的效果要比較好。特別是在還原真人時，大部分還是使用LoRA能更精準表現出特定的人物特徵。

LyCORIS

LyCORIS是一種和LoRA很類似的微調模型，主要功能使用方法和LoRA一樣，簡單理解它就是LoRA的增強/變化版，比LoRA擁有更多的參數承載更多的數據量。

檔案大小 : 幾十到上百MB都有
功能 : 可以訓練特定人物/物體特徵、動作、畫風

Hypernetwork

Hypernetwork主要應用在訓練畫風的效果比較好，但在其它人物特徵的訓練上不如LoRA好用。因此，由於它能夠應用的範圍較窄，再加上訓練不易，現在已經很少使用到，目前也逐漸被後出現的LoRA所取代。

VAE

VAE的全名是Variation autoencoder，它最直觀明顯的作用就是改善有些Checkpoint模型畫出來的圖總是看起來灰濛濛/暗淡/色彩不夠明亮鮮豔的情況。如果Checkpoint模型本身自帶VAE，直接出圖的效果就已經很理想時，就不需要再另外搭配使用VAE，有時多加上不必要的VAE反而會造成反效果讓出圖品質變差。