ComfyUI 研究 - 生成影片

更新 發佈閱讀 4 分鐘


SVD - Stable Video Diffusion

SVD是Stable Diffusion官方Stability AI在2023年11月21日釋出的影片生成模型,官方發布的新聞連結如下:

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

撰文當下是2024年2月29日,才三個多月的時間,AI生成影片已經進入下一個階段,除了Open AI在2024年2月16日發表了驚豔四方的Sora外,2月28日阿里巴巴更發表了一張圖片即可生成對嘴影片的EMO(Emote Portrait Alive)模型。

感覺AI生成的腳步不只是停不下來,甚至還不斷地加速中。

如果看到這邊還有興趣跟我一起研究的人,請繼續往下閱讀。


SVD 官方工作流

raw-image


上圖的工作流是ComfyUI官方提供的svd模型工作流,組成的節點如下:

  • Load Image
  • Image Only Checkpoint Loader (img2vid model)
  • VideoLinearCFGGuidance
  • SVD_img2vid_Conditioning
  • KSampler
  • VAE Decode
  • SaveAnimatedWEBP

這個工作流的功用是圖生影片,使用官方提供的svd.safetensors模型可以生成最多14幀的影片,使用svd_xt.safetensors或svd_xt_1_1.safetensors模型則可以生成最多25幀的影片。

如果將Load Image改成文生圖工作流再輸入到圖生影片的工作流中,則可以實現文生影片的效果。


節點參數簡介

在下圖這個SVD專用的節點中,motion_bucket_id可以控制畫面中動的物件數量,值愈大動得愈多,但會產生模糊,augmentation_level則是與原圖的差異,值愈大愈不像原圖。

raw-image


另外,下圖VideoLinearCFGGuidance這個節點可以動態調整CFG的值,將min_cfg設定比KSampler的CFG值低,就可以在生成過程中調整CFG值,生成的圖像會比較溫和。


raw-image


SVD模型擅長處理風景圖片,在處理非風景的圖片時需要其他節點輔助提昇品質。

SVD的優點是用一張圖片就可以生成影片且品質不錯,缺點是影片的效果是由模型決定,


AnimateDiff

AnimateDiff 早於 SVD 發表,因此網路上有很多基於AnimateDiff的工作流可以使用,生成的影像品質跟效果皆可以控制,還可以套用Controlnet跟Lora,或是搭配SVD使用。


基本工作流

下圖是套用AnimateDiff的基本工作流。

raw-image


其實這個工作流類似套用Lora時使用的工作流,只要將AnimaterDiff Loader這個節點插入到大模型跟KSampler中間,就可以使用AnimateDiff,只要在Empty Latent Image這個節點設定batch_size的數值,就可以設定總共要生成多少圖片。

工作流的最右側節點我原本都是使用Preview Image,在生成影片時需要用自動結合圖片的節點如Video Combine。


raw-image


在Video Combine節點設定frame_rate可以決定每秒幀數,例如生成了16張圖,使用8幀/秒則可將16張圖結合成2秒的影片。

這個工作流經過測試容易佔用太大的顯示卡記憶體而跑不動。


進階工作流

下圖是用AnimateDiff Evolved提供的節點搭建的工作流。

raw-image

這個工作流與基本工作流的差異在於可以一次生成更多幀數而不會佔用太多顯示卡記憶體。

另外加入了AnimateDiff提供的動態LoRA,可以選擇預設的一些鏡頭效果如平移、旋轉等。

這個工作流的後端就是一般的文生圖工作流。


延伸討論

下圖是我從https://openart.ai/home這個網站下載的一個工作流。

raw-image

這個工作流是用SVD生成影片,再用AnimateDiff重新製作一次動畫,另外經過放大及ControlNet處理提升畫質。

雖然作者已經分好群組也使用了很多節點讓工作流看起來沒那麼混亂,但是要使用這個工作流除了要把缺失的節點都安裝好外,也要知道調整那些參數及在什麼節點使用什麼類型的模型。

另外網路上也有將抖音真人跳舞影片轉成其他風格的跳舞影片的工作流,下載後會發現使用了各種千奇百怪的節點,即使透過Manger安裝了許多節點,也還有缺失的節點無法執行。

當我剛開始使用ComfyUI時遇過上述的問題許多次,做了很多功課跟嘗試才慢慢地知道如何找出缺失的節點並安裝,或是用其他節點取而代之。

本篇只是做為AI生成影片的一個引子,之後我會分享更多工作流跟新的AI資訊。


敬請期待。


raw-image



留言
avatar-img
Frank Plaza
13.1K會員
89內容數
AI的時代已經來臨
Frank Plaza的其他內容
2024/04/06
這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流,還可以幫線稿上色。
Thumbnail
2024/04/06
這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流,還可以幫線稿上色。
Thumbnail
2024/04/02
測試一下InstantID
Thumbnail
2024/04/02
測試一下InstantID
Thumbnail
2024/04/01
測試一下 IPAdapter FaceID
Thumbnail
2024/04/01
測試一下 IPAdapter FaceID
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
除了 Luma DreamMachine 以外,如果想用文字或照片自動生成影片的話,還有其他選擇嗎?可以試試 Vidu AI 生成式影片服務,一起了解如何使用 Vidu 及進階技巧,輕鬆製作二次元或東方臉孔的 AI 影片!Vocus 網友專屬避免踩坑資訊在最後一段。
Thumbnail
除了 Luma DreamMachine 以外,如果想用文字或照片自動生成影片的話,還有其他選擇嗎?可以試試 Vidu AI 生成式影片服務,一起了解如何使用 Vidu 及進階技巧,輕鬆製作二次元或東方臉孔的 AI 影片!Vocus 網友專屬避免踩坑資訊在最後一段。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
文章中,我們介紹了幾款免費的AI影片製作工具,並提供了使用教學和技巧。無論是Lumen5、Pictory、Canva、Kapwing、CapCut還是FlexClip,這些工具都能幫助你高效地實現影片製作目標。此外,我們還介紹了一些其他輔助工具,如AI配音工具和AI繪圖工具,讓您可以更豐富地製作影片
Thumbnail
文章中,我們介紹了幾款免費的AI影片製作工具,並提供了使用教學和技巧。無論是Lumen5、Pictory、Canva、Kapwing、CapCut還是FlexClip,這些工具都能幫助你高效地實現影片製作目標。此外,我們還介紹了一些其他輔助工具,如AI配音工具和AI繪圖工具,讓您可以更豐富地製作影片
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News