ComfyUI 研究 - 生成影片

2025/02/28 更新2024/02/29 發佈閱讀 4 分鐘

SVD - Stable Video Diffusion

SVD是Stable Diffusion官方Stability AI在2023年11月21日釋出的影片生成模型，官方發布的新聞連結如下：

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

撰文當下是2024年2月29日，才三個多月的時間，AI生成影片已經進入下一個階段，除了Open AI在2024年2月16日發表了驚豔四方的Sora外，2月28日阿里巴巴更發表了一張圖片即可生成對嘴影片的EMO(Emote Portrait Alive)模型。

感覺AI生成的腳步不只是停不下來，甚至還不斷地加速中。

如果看到這邊還有興趣跟我一起研究的人，請繼續往下閱讀。

SVD 官方工作流

上圖的工作流是ComfyUI官方提供的svd模型工作流，組成的節點如下：

Load Image
Image Only Checkpoint Loader (img2vid model)
VideoLinearCFGGuidance
SVD_img2vid_Conditioning
KSampler
VAE Decode
SaveAnimatedWEBP

這個工作流的功用是圖生影片，使用官方提供的svd.safetensors模型可以生成最多14幀的影片，使用svd_xt.safetensors或svd_xt_1_1.safetensors模型則可以生成最多25幀的影片。

如果將Load Image改成文生圖工作流再輸入到圖生影片的工作流中，則可以實現文生影片的效果。

節點參數簡介

在下圖這個SVD專用的節點中，motion_bucket_id可以控制畫面中動的物件數量，值愈大動得愈多，但會產生模糊，augmentation_level則是與原圖的差異，值愈大愈不像原圖。

另外，下圖VideoLinearCFGGuidance這個節點可以動態調整CFG的值，將min_cfg設定比KSampler的CFG值低，就可以在生成過程中調整CFG值，生成的圖像會比較溫和。

SVD模型擅長處理風景圖片，在處理非風景的圖片時需要其他節點輔助提昇品質。

SVD的優點是用一張圖片就可以生成影片且品質不錯，缺點是影片的效果是由模型決定，

AnimateDiff

AnimateDiff 早於 SVD 發表，因此網路上有很多基於AnimateDiff的工作流可以使用，生成的影像品質跟效果皆可以控制，還可以套用Controlnet跟Lora，或是搭配SVD使用。

基本工作流

下圖是套用AnimateDiff的基本工作流。

其實這個工作流類似套用Lora時使用的工作流，只要將AnimaterDiff Loader這個節點插入到大模型跟KSampler中間，就可以使用AnimateDiff，只要在Empty Latent Image這個節點設定batch_size的數值，就可以設定總共要生成多少圖片。

工作流的最右側節點我原本都是使用Preview Image，在生成影片時需要用自動結合圖片的節點如Video Combine。

在Video Combine節點設定frame_rate可以決定每秒幀數，例如生成了16張圖，使用8幀/秒則可將16張圖結合成2秒的影片。

這個工作流經過測試容易佔用太大的顯示卡記憶體而跑不動。

進階工作流

下圖是用AnimateDiff Evolved提供的節點搭建的工作流。

這個工作流與基本工作流的差異在於可以一次生成更多幀數而不會佔用太多顯示卡記憶體。

另外加入了AnimateDiff提供的動態LoRA，可以選擇預設的一些鏡頭效果如平移、旋轉等。

這個工作流的後端就是一般的文生圖工作流。

延伸討論

下圖是我從https://openart.ai/home這個網站下載的一個工作流。

這個工作流是用SVD生成影片，再用AnimateDiff重新製作一次動畫，另外經過放大及ControlNet處理提升畫質。

雖然作者已經分好群組也使用了很多節點讓工作流看起來沒那麼混亂，但是要使用這個工作流除了要把缺失的節點都安裝好外，也要知道調整那些參數及在什麼節點使用什麼類型的模型。

另外網路上也有將抖音真人跳舞影片轉成其他風格的跳舞影片的工作流，下載後會發現使用了各種千奇百怪的節點，即使透過Manger安裝了許多節點，也還有缺失的節點無法執行。

當我剛開始使用ComfyUI時遇過上述的問題許多次，做了很多功課跟嘗試才慢慢地知道如何找出缺失的節點並安裝，或是用其他節點取而代之。

本篇只是做為AI生成影片的一個引子，之後我會分享更多工作流跟新的AI資訊。

敬請期待。

Frank PlazaComfyUI 研究

留言

留言分享你的想法！

Frank Plaza

12.5K會員

89內容數

AI的時代已經來臨

Frank Plaza的其他內容

2024/04/06

ComfyUI研究 - 虛實轉換

這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流，還可以幫線稿上色。

2024/04/06

ComfyUI研究 - 虛實轉換

這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流，還可以幫線稿上色。

2024/04/02

ComfyUI研究 - InstantID

測試一下InstantID

2024/04/02

ComfyUI研究 - InstantID

測試一下InstantID

2024/04/01

ComfyUI研究 - IPAdapter FaceID

測試一下 IPAdapter FaceID

2024/04/01

ComfyUI研究 - IPAdapter FaceID

測試一下 IPAdapter FaceID

看更多

你可能也想看

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

Vidu 完整教學：可使用中文指令的快速免費生成 AI 動態影片服務

除了 Luma DreamMachine 以外，如果想用文字或照片自動生成影片的話，還有其他選擇嗎？可以試試 Vidu AI 生成式影片服務，一起了解如何使用 Vidu 及進階技巧，輕鬆製作二次元或東方臉孔的 AI 影片！Vocus 網友專屬避免踩坑資訊在最後一段。

#ai#VIDU#生成式

2024/07/31

吹著魔笛的浮士德俱樂部

Vidu 完整教學：可使用中文指令的快速免費生成 AI 動態影片服務

#ai#VIDU#生成式

2024/07/31

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構，並提出了一種新的非對稱式VQGAN，具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。

#論文#AI#資料科學

2024/07/04

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

#論文#AI#資料科學

2024/07/04

地政財富筆記

免費AI影片創作工具：讓你輕鬆製作高品質影片

文章中，我們介紹了幾款免費的AI影片製作工具，並提供了使用教學和技巧。無論是Lumen5、Pictory、Canva、Kapwing、CapCut還是FlexClip，這些工具都能幫助你高效地實現影片製作目標。此外，我們還介紹了一些其他輔助工具，如AI配音工具和AI繪圖工具，讓您可以更豐富地製作影片

#AI生成影片#Lumen5教學#Canva視頻編輯

2024/06/26