AI繪圖-Stable Diffusion 003- 模型分類 & 常用下載網站

閱讀時間約 5 分鐘
raw-image

前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。


前言 綜合知識 –

Checkpoint、VAE、Embedding(又稱Textual inversion)、Hypernetwork、LoRA和LyCORIS是使用Stable Diffusion時一般常見到的模型種類(另外還有外掛ControlNet所使用到的模型,不過這部分我把它歸類到講外掛擴充時再說明。)

  • 圖像模型的副檔名有很多種,常看到的有.ckpt,.bin,.pth,.safetensors..等。其中.safetensors是後期所開發的檔案模式,.safetensors主要好處就是可以有效避免檔案中被夾帶病毒的風險。現在愈來愈多模型的檔案模式都開始使用.safetensors。因此,當我們在網上尋找模型資源下載時,只要有.safetensors格式可選,就以此為優先。
  • 可供下載模型的網站主要有2個 :
    Hugging Face : 這個網站裡大多以官方模型為主,再加上網站都是密密麻麻的文字內容,不夠視覺化方便使用者瀏覽找到喜歡的模型。
    Civitai : Civitai裡的模型豐富多元,幾乎所有官方、非官方的模型這裡都找得到。圖像化顯示方式讓人可以更快速了解每個模型的風格特色,以及每個模型頁面中也都會有完整的使用相關說明提示,所以要下載模型時主要都會使用這個網站。




Checkpoint

Checkpoint,一般我們常稱之為大模型/主模型/底模型。一定要有一個主模型在,Stable Diffusion才能進行繪圖。

  • 檔案大小 : 一般至少都在2GB以上

Checkpoint它就是一個包含大量圖片內容訊息的集合,最初要從無到有訓練出一個Checkpoint模型會需要花費大量的預算和時間(數千張的高階顯卡、數十億張的圖片內容、花費數月以上的時間去運算訓練…..),這通常不是一般人可以負擔得起的。

所以我們在C站上所看到各式各樣豐富多元的Checkpoint模型都是在官方所發布開源的模型基礎上(Base Model)進行修改微調而成。雖然一般我們常會嫌棄官方模型不好用/畫出來的圖不夠好看,都會另外去下載其它微調修改過的非官方模型來使用,但沒有這個官方模型的基礎在就什麼都沒有…。

即使有了官方模型的基礎,讓個人也能自行訓練出所需風格特色的Checkpoint模型,但Checkpoint檔案大小動輒數GB起跳的模型整個重新修改調整,仍然需要相對高階的硬體設備與費時,實在不是很方便。當我們只需要訓練一小部分的風格主題時,並不需要把整個Checkpoint模型都做調整,因此後來才又再延伸發展出了其它更簡潔有效率、輔助形式的模型出現-embedding、Hypernetwork、LoRA、LyCORIS。

 

Embedding(Textual inversion)

Embedding又稱Textual inversion,它是透過文字提示詞來影響訓練模型所生成圖像的結果。簡言之就是將一堆能產生特定風格/效果/主題的提示詞進行打包(這些提示詞可能需要幾十或是上百行的文字內容才能描寫出我們所需的目的)。也因為檔案內容只是文字合集,所以embedding模型的檔案都很小。

  • 檔案大小 : 一般都是幾十KB大小
  • 功能 : 可以訓練特定人物/物體特徵、動作、畫風,或是做為特定反向提示詞的集合使用。

 

LoRA

LoRA全名Low-Rank Adaptation of Large Language Models,LoRA是一種用來微調大型語言模型參數的技術,由微軟所提出。現在C站上LoRA訓練出來的模型最常被使用在對特定人物特徵的復刻,但LoRA除了訓練特定人物模型外,也能應用在畫風、固定人物動作等。

  • 檔案大小 : 幾十到上百MB都有
  • 功能 : 可以訓練特定人物/物體特徵、動作、畫風

那麼embedding和LoRA的功能都是可以訓練特定人物/物體特徵、動作、畫風,他們的差別在哪裡?

embedding是文字提示詞的打包,只靠文字描述去影響圖像生成的效果,而LoRA則是由數十張圖片加上相對應的文本資訊去訓練出來的微調模型。光是看檔案大小就知道,一個幾十KB,一個幾十到百多MB,兩者之間各自所內含的數據量就有所差別。一般來說都會是LoRA的效果要比較好。特別是在還原真人時,大部分還是使用LoRA能更精準表現出特定的人物特徵。

 

LyCORIS

LyCORIS是一種和LoRA很類似的微調模型,主要功能使用方法和LoRA一樣,簡單理解它就是LoRA的增強/變化版,比LoRA擁有更多的參數承載更多的數據量。

  • 檔案大小 : 幾十到上百MB都有
  • 功能 : 可以訓練特定人物/物體特徵、動作、畫風

 

Hypernetwork

Hypernetwork主要應用在訓練畫風的效果比較好,但在其它人物特徵的訓練上不如LoRA好用。因此,由於它能夠應用的範圍較窄,再加上訓練不易,現在已經很少使用到,目前也逐漸被後出現的LoRA所取代。

 

VAE

VAE的全名是Variation autoencoder,它最直觀明顯的作用就是改善有些Checkpoint模型畫出來的圖總是看起來灰濛濛/暗淡/色彩不夠明亮鮮豔的情況。如果Checkpoint模型本身自帶VAE,直接出圖的效果就已經很理想時,就不需要再另外搭配使用VAE,有時多加上不必要的VAE反而會造成反效果讓出圖品質變差。

  • 功能 : 主要用來改善圖片的色彩飽和度/亮度
記錄店小二建立網賺被動收入歷程、自我學習成長以及各類財富自由資訊的分享專區。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
開源軟體時常更新版本,有時新出的外掛擴充或是Stability.Ai所更新發佈的新模型會需要更新版本的WebUi操作介面才能運行。所以每隔一段時間都要記得去注意一下是否有修正/新增功能的版本可以更新。 確認目前使用的WebUi版本~ 這個Stable Diffusion WebUi是由AUT
運行Stable Diffusion繪圖模型的操作介面有很多選擇,這邊介紹的是目前最廣泛被大家主流使用的版本(AUTOMATIC1111)在本機電腦的安裝方式。 Stable Diffusion基礎概況 在開始安裝運行Stable Diffusion的操作介面前,有幾個基礎知識要先了解一下
從2022年AI繪圖迅速掘起,到如今一年多的期間,各平台相互競爭不斷快速進化,幾個主流AI繪圖平台都發展出各自的優勢特色(Adobe Firefly、Midjourney,Stable Diffusion、Leonardo.Ai)。而其中Stable Diffusion的免費開源以及更高的操控自由度
開源軟體時常更新版本,有時新出的外掛擴充或是Stability.Ai所更新發佈的新模型會需要更新版本的WebUi操作介面才能運行。所以每隔一段時間都要記得去注意一下是否有修正/新增功能的版本可以更新。 確認目前使用的WebUi版本~ 這個Stable Diffusion WebUi是由AUT
運行Stable Diffusion繪圖模型的操作介面有很多選擇,這邊介紹的是目前最廣泛被大家主流使用的版本(AUTOMATIC1111)在本機電腦的安裝方式。 Stable Diffusion基礎概況 在開始安裝運行Stable Diffusion的操作介面前,有幾個基礎知識要先了解一下
從2022年AI繪圖迅速掘起,到如今一年多的期間,各平台相互競爭不斷快速進化,幾個主流AI繪圖平台都發展出各自的優勢特色(Adobe Firefly、Midjourney,Stable Diffusion、Leonardo.Ai)。而其中Stable Diffusion的免費開源以及更高的操控自由度
你可能也想看
Google News 追蹤
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
接著載入Part 2需要的相關依賴,其分別為: from torch import cuda, bfloat16import import transformers 然後選擇我們要的Meta模型,這邊可以是Llama 2或者是Llama 3,後者是Meta最新釋出的模型。 同時我們也讓系統自
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
本篇文章參考 Youtube 影片(...真實模型推薦...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
Enhance This HiDiffusion SDXL是一個AI模型,結合HiDiffusion和SDXL兩種圖像生成模型,可以根據既有影像和文字描述生成新的圖像,可用來提高圖像解析度、修復瑕疵、轉換風格和自由創造新的圖像。
接著載入Part 2需要的相關依賴,其分別為: from torch import cuda, bfloat16import import transformers 然後選擇我們要的Meta模型,這邊可以是Llama 2或者是Llama 3,後者是Meta最新釋出的模型。 同時我們也讓系統自
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
Tensor Art 使用 Stable Diffusion 的各種模型,也能使用ControlNet 和 LoRA功能,根據使用者的輸入來文生圖、圖生圖,生成各種風格的高質量圖像,包括人像、動人的風景、創意的抽象畫等。
Thumbnail
本篇文章參考 Youtube 影片(...真實模型推薦...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!