ComfyUI 研究 - 生成影片

更新於 發佈於 閱讀時間約 4 分鐘


SVD - Stable Video Diffusion

SVD是Stable Diffusion官方Stability AI在2023年11月21日釋出的影片生成模型,官方發布的新聞連結如下:

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

撰文當下是2024年2月29日,才三個多月的時間,AI生成影片已經進入下一個階段,除了Open AI在2024年2月16日發表了驚豔四方的Sora外,2月28日阿里巴巴更發表了一張圖片即可生成對嘴影片的EMO(Emote Portrait Alive)模型。

感覺AI生成的腳步不只是停不下來,甚至還不斷地加速中。

如果看到這邊還有興趣跟我一起研究的人,請繼續往下閱讀。


SVD 官方工作流

raw-image


上圖的工作流是ComfyUI官方提供的svd模型工作流,組成的節點如下:

  • Load Image
  • Image Only Checkpoint Loader (img2vid model)
  • VideoLinearCFGGuidance
  • SVD_img2vid_Conditioning
  • KSampler
  • VAE Decode
  • SaveAnimatedWEBP

這個工作流的功用是圖生影片,使用官方提供的svd.safetensors模型可以生成最多14幀的影片,使用svd_xt.safetensors或svd_xt_1_1.safetensors模型則可以生成最多25幀的影片。

如果將Load Image改成文生圖工作流再輸入到圖生影片的工作流中,則可以實現文生影片的效果。


節點參數簡介

在下圖這個SVD專用的節點中,motion_bucket_id可以控制畫面中動的物件數量,值愈大動得愈多,但會產生模糊,augmentation_level則是與原圖的差異,值愈大愈不像原圖。

raw-image


另外,下圖VideoLinearCFGGuidance這個節點可以動態調整CFG的值,將min_cfg設定比KSampler的CFG值低,就可以在生成過程中調整CFG值,生成的圖像會比較溫和。


raw-image


SVD模型擅長處理風景圖片,在處理非風景的圖片時需要其他節點輔助提昇品質。

SVD的優點是用一張圖片就可以生成影片且品質不錯,缺點是影片的效果是由模型決定,


AnimateDiff

AnimateDiff 早於 SVD 發表,因此網路上有很多基於AnimateDiff的工作流可以使用,生成的影像品質跟效果皆可以控制,還可以套用Controlnet跟Lora,或是搭配SVD使用。


基本工作流

下圖是套用AnimateDiff的基本工作流。

raw-image


其實這個工作流類似套用Lora時使用的工作流,只要將AnimaterDiff Loader這個節點插入到大模型跟KSampler中間,就可以使用AnimateDiff,只要在Empty Latent Image這個節點設定batch_size的數值,就可以設定總共要生成多少圖片。

工作流的最右側節點我原本都是使用Preview Image,在生成影片時需要用自動結合圖片的節點如Video Combine。


raw-image


在Video Combine節點設定frame_rate可以決定每秒幀數,例如生成了16張圖,使用8幀/秒則可將16張圖結合成2秒的影片。

這個工作流經過測試容易佔用太大的顯示卡記憶體而跑不動。


進階工作流

下圖是用AnimateDiff Evolved提供的節點搭建的工作流。

raw-image

這個工作流與基本工作流的差異在於可以一次生成更多幀數而不會佔用太多顯示卡記憶體。

另外加入了AnimateDiff提供的動態LoRA,可以選擇預設的一些鏡頭效果如平移、旋轉等。

這個工作流的後端就是一般的文生圖工作流。


延伸討論

下圖是我從https://openart.ai/home這個網站下載的一個工作流。

raw-image

這個工作流是用SVD生成影片,再用AnimateDiff重新製作一次動畫,另外經過放大及ControlNet處理提升畫質。

雖然作者已經分好群組也使用了很多節點讓工作流看起來沒那麼混亂,但是要使用這個工作流除了要把缺失的節點都安裝好外,也要知道調整那些參數及在什麼節點使用什麼類型的模型。

另外網路上也有將抖音真人跳舞影片轉成其他風格的跳舞影片的工作流,下載後會發現使用了各種千奇百怪的節點,即使透過Manger安裝了許多節點,也還有缺失的節點無法執行。

當我剛開始使用ComfyUI時遇過上述的問題許多次,做了很多功課跟嘗試才慢慢地知道如何找出缺失的節點並安裝,或是用其他節點取而代之。

本篇只是做為AI生成影片的一個引子,之後我會分享更多工作流跟新的AI資訊。


敬請期待。


raw-image



留言
avatar-img
留言分享你的想法!
avatar-img
Frank Plaza
10.1K會員
89內容數
AI的時代已經來臨
Frank Plaza的其他內容
2024/04/06
這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流,還可以幫線稿上色。
Thumbnail
2024/04/06
這篇要搭建一個同時生成寫實照片跟動漫風格圖片的工作流,還可以幫線稿上色。
Thumbnail
2024/04/02
測試一下InstantID
Thumbnail
2024/04/02
測試一下InstantID
Thumbnail
2024/04/01
測試一下 IPAdapter FaceID
Thumbnail
2024/04/01
測試一下 IPAdapter FaceID
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
除了 Luma DreamMachine 以外,如果想用文字或照片自動生成影片的話,還有其他選擇嗎?可以試試 Vidu AI 生成式影片服務,一起了解如何使用 Vidu 及進階技巧,輕鬆製作二次元或東方臉孔的 AI 影片!Vocus 網友專屬避免踩坑資訊在最後一段。
Thumbnail
除了 Luma DreamMachine 以外,如果想用文字或照片自動生成影片的話,還有其他選擇嗎?可以試試 Vidu AI 生成式影片服務,一起了解如何使用 Vidu 及進階技巧,輕鬆製作二次元或東方臉孔的 AI 影片!Vocus 網友專屬避免踩坑資訊在最後一段。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
文章中,我們介紹了幾款免費的AI影片製作工具,並提供了使用教學和技巧。無論是Lumen5、Pictory、Canva、Kapwing、CapCut還是FlexClip,這些工具都能幫助你高效地實現影片製作目標。此外,我們還介紹了一些其他輔助工具,如AI配音工具和AI繪圖工具,讓您可以更豐富地製作影片
Thumbnail
文章中,我們介紹了幾款免費的AI影片製作工具,並提供了使用教學和技巧。無論是Lumen5、Pictory、Canva、Kapwing、CapCut還是FlexClip,這些工具都能幫助你高效地實現影片製作目標。此外,我們還介紹了一些其他輔助工具,如AI配音工具和AI繪圖工具,讓您可以更豐富地製作影片
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News