AI繪圖-Stable Diffusion 003- 模型分類 & 常用下載網站

更新 發佈閱讀 5 分鐘
raw-image

前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。


前言 綜合知識 –

Checkpoint、VAE、Embedding(又稱Textual inversion)、Hypernetwork、LoRA和LyCORIS是使用Stable Diffusion時一般常見到的模型種類(另外還有外掛ControlNet所使用到的模型,不過這部分我把它歸類到講外掛擴充時再說明。)

  • 圖像模型的副檔名有很多種,常看到的有.ckpt,.bin,.pth,.safetensors..等。其中.safetensors是後期所開發的檔案模式,.safetensors主要好處就是可以有效避免檔案中被夾帶病毒的風險。現在愈來愈多模型的檔案模式都開始使用.safetensors。因此,當我們在網上尋找模型資源下載時,只要有.safetensors格式可選,就以此為優先。
  • 可供下載模型的網站主要有2個 :
    Hugging Face : 這個網站裡大多以官方模型為主,再加上網站都是密密麻麻的文字內容,不夠視覺化方便使用者瀏覽找到喜歡的模型。
    Civitai : Civitai裡的模型豐富多元,幾乎所有官方、非官方的模型這裡都找得到。圖像化顯示方式讓人可以更快速了解每個模型的風格特色,以及每個模型頁面中也都會有完整的使用相關說明提示,所以要下載模型時主要都會使用這個網站。




Checkpoint

Checkpoint,一般我們常稱之為大模型/主模型/底模型。一定要有一個主模型在,Stable Diffusion才能進行繪圖。

  • 檔案大小 : 一般至少都在2GB以上

Checkpoint它就是一個包含大量圖片內容訊息的集合,最初要從無到有訓練出一個Checkpoint模型會需要花費大量的預算和時間(數千張的高階顯卡、數十億張的圖片內容、花費數月以上的時間去運算訓練…..),這通常不是一般人可以負擔得起的。

所以我們在C站上所看到各式各樣豐富多元的Checkpoint模型都是在官方所發布開源的模型基礎上(Base Model)進行修改微調而成。雖然一般我們常會嫌棄官方模型不好用/畫出來的圖不夠好看,都會另外去下載其它微調修改過的非官方模型來使用,但沒有這個官方模型的基礎在就什麼都沒有…。

即使有了官方模型的基礎,讓個人也能自行訓練出所需風格特色的Checkpoint模型,但Checkpoint檔案大小動輒數GB起跳的模型整個重新修改調整,仍然需要相對高階的硬體設備與費時,實在不是很方便。當我們只需要訓練一小部分的風格主題時,並不需要把整個Checkpoint模型都做調整,因此後來才又再延伸發展出了其它更簡潔有效率、輔助形式的模型出現-embedding、Hypernetwork、LoRA、LyCORIS。

 

Embedding(Textual inversion)

Embedding又稱Textual inversion,它是透過文字提示詞來影響訓練模型所生成圖像的結果。簡言之就是將一堆能產生特定風格/效果/主題的提示詞進行打包(這些提示詞可能需要幾十或是上百行的文字內容才能描寫出我們所需的目的)。也因為檔案內容只是文字合集,所以embedding模型的檔案都很小。

  • 檔案大小 : 一般都是幾十KB大小
  • 功能 : 可以訓練特定人物/物體特徵、動作、畫風,或是做為特定反向提示詞的集合使用。

 

LoRA

LoRA全名Low-Rank Adaptation of Large Language Models,LoRA是一種用來微調大型語言模型參數的技術,由微軟所提出。現在C站上LoRA訓練出來的模型最常被使用在對特定人物特徵的復刻,但LoRA除了訓練特定人物模型外,也能應用在畫風、固定人物動作等。

  • 檔案大小 : 幾十到上百MB都有
  • 功能 : 可以訓練特定人物/物體特徵、動作、畫風

那麼embedding和LoRA的功能都是可以訓練特定人物/物體特徵、動作、畫風,他們的差別在哪裡?

embedding是文字提示詞的打包,只靠文字描述去影響圖像生成的效果,而LoRA則是由數十張圖片加上相對應的文本資訊去訓練出來的微調模型。光是看檔案大小就知道,一個幾十KB,一個幾十到百多MB,兩者之間各自所內含的數據量就有所差別。一般來說都會是LoRA的效果要比較好。特別是在還原真人時,大部分還是使用LoRA能更精準表現出特定的人物特徵。

 

LyCORIS

LyCORIS是一種和LoRA很類似的微調模型,主要功能使用方法和LoRA一樣,簡單理解它就是LoRA的增強/變化版,比LoRA擁有更多的參數承載更多的數據量。

  • 檔案大小 : 幾十到上百MB都有
  • 功能 : 可以訓練特定人物/物體特徵、動作、畫風

 

Hypernetwork

Hypernetwork主要應用在訓練畫風的效果比較好,但在其它人物特徵的訓練上不如LoRA好用。因此,由於它能夠應用的範圍較窄,再加上訓練不易,現在已經很少使用到,目前也逐漸被後出現的LoRA所取代。

 

VAE

VAE的全名是Variation autoencoder,它最直觀明顯的作用就是改善有些Checkpoint模型畫出來的圖總是看起來灰濛濛/暗淡/色彩不夠明亮鮮豔的情況。如果Checkpoint模型本身自帶VAE,直接出圖的效果就已經很理想時,就不需要再另外搭配使用VAE,有時多加上不必要的VAE反而會造成反效果讓出圖品質變差。

  • 功能 : 主要用來改善圖片的色彩飽和度/亮度
留言
avatar-img
店小二DianXiaoEr的沙龍
87會員
284內容數
記錄店小二建立網賺被動收入歷程、自我學習成長以及各類財富自由資訊的分享專區。
2023/09/21
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
2023/09/21
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
2023/09/21
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
2023/09/21
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
2023/09/18
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
2023/09/18
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
Thumbnail
LoRA 是什麼?為何在 Stable Diffusion 社群討論中常常出現?Prompt 有時看到很奇怪的文字是什麼?本文一次解答上述問題,並用白話文簡介 LoRA 原理,讓大家在操作時更有感覺!
Thumbnail
LoRA 是什麼?為何在 Stable Diffusion 社群討論中常常出現?Prompt 有時看到很奇怪的文字是什麼?本文一次解答上述問題,並用白話文簡介 LoRA 原理,讓大家在操作時更有感覺!
Thumbnail
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
Thumbnail
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
Thumbnail
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
Thumbnail
如何完全靠雲端運算,簡單產生高品質,穩定的角色LoRA,讓AI繪圖能在不同模型下產生一致的人物。上集。
Thumbnail
這個方法主要是借用Google Colab的威力。 這次要介紹的LoRA訓練法,特別適用於下列對象: nVidia顯卡不夠高級,跑不動訓練程序 根本不是nVidia顯卡的使用者,Stable Diffusion的訓練程序不支援 不想花錢花電力花顯卡時間訓練
Thumbnail
這個方法主要是借用Google Colab的威力。 這次要介紹的LoRA訓練法,特別適用於下列對象: nVidia顯卡不夠高級,跑不動訓練程序 根本不是nVidia顯卡的使用者,Stable Diffusion的訓練程序不支援 不想花錢花電力花顯卡時間訓練
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News