ComfyUI 研究 - 生成影片

更新於 發佈於 閱讀時間約 4 分鐘


SVD - Stable Video Diffusion

SVD是Stable Diffusion官方Stability AI在2023年11月21日釋出的影片生成模型,官方發布的新聞連結如下:

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

撰文當下是2024年2月29日,才三個多月的時間,AI生成影片已經進入下一個階段,除了Open AI在2024年2月16日發表了驚豔四方的Sora外,2月28日阿里巴巴更發表了一張圖片即可生成對嘴影片的EMO(Emote Portrait Alive)模型。

感覺AI生成的腳步不只是停不下來,甚至還不斷地加速中。

如果看到這邊還有興趣跟我一起研究的人,請繼續往下閱讀。


SVD 官方工作流

raw-image


上圖的工作流是ComfyUI官方提供的svd模型工作流,組成的節點如下:

  • Load Image
  • Image Only Checkpoint Loader (img2vid model)
  • VideoLinearCFGGuidance
  • SVD_img2vid_Conditioning
  • KSampler
  • VAE Decode
  • SaveAnimatedWEBP

這個工作流的功用是圖生影片,使用官方提供的svd.safetensors模型可以生成最多14幀的影片,使用svd_xt.safetensors或svd_xt_1_1.safetensors模型則可以生成最多25幀的影片。

如果將Load Image改成文生圖工作流再輸入到圖生影片的工作流中,則可以實現文生影片的效果。


節點參數簡介

在下圖這個SVD專用的節點中,motion_bucket_id可以控制畫面中動的物件數量,值愈大動得愈多,但會產生模糊,augmentation_level則是與原圖的差異,值愈大愈不像原圖。

raw-image


另外,下圖VideoLinearCFGGuidance這個節點可以動態調整CFG的值,將min_cfg設定比KSampler的CFG值低,就可以在生成過程中調整CFG值,生成的圖像會比較溫和。


raw-image


SVD模型擅長處理風景圖片,在處理非風景的圖片時需要其他節點輔助提昇品質。

SVD的優點是用一張圖片就可以生成影片且品質不錯,缺點是影片的效果是由模型決定,


AnimateDiff

AnimateDiff 早於 SVD 發表,因此網路上有很多基於AnimateDiff的工作流可以使用,生成的影像品質跟效果皆可以控制,還可以套用Controlnet跟Lora,或是搭配SVD使用。


基本工作流

下圖是套用AnimateDiff的基本工作流。

raw-image


其實這個工作流類似套用Lora時使用的工作流,只要將AnimaterDiff Loader這個節點插入到大模型跟KSampler中間,就可以使用AnimateDiff,只要在Empty Latent Image這個節點設定batch_size的數值,就可以設定總共要生成多少圖片。

工作流的最右側節點我原本都是使用Preview Image,在生成影片時需要用自動結合圖片的節點如Video Combine。


raw-image


在Video Combine節點設定frame_rate可以決定每秒幀數,例如生成了16張圖,使用8幀/秒則可將16張圖結合成2秒的影片。

這個工作流經過測試容易佔用太大的顯示卡記憶體而跑不動。


進階工作流

下圖是用AnimateDiff Evolved提供的節點搭建的工作流。

raw-image

這個工作流與基本工作流的差異在於可以一次生成更多幀數而不會佔用太多顯示卡記憶體。

另外加入了AnimateDiff提供的動態LoRA,可以選擇預設的一些鏡頭效果如平移、旋轉等。

這個工作流的後端就是一般的文生圖工作流。


延伸討論

下圖是我從https://openart.ai/home這個網站下載的一個工作流。

raw-image

這個工作流是用SVD生成影片,再用AnimateDiff重新製作一次動畫,另外經過放大及ControlNet處理提升畫質。

雖然作者已經分好群組也使用了很多節點讓工作流看起來沒那麼混亂,但是要使用這個工作流除了要把缺失的節點都安裝好外,也要知道調整那些參數及在什麼節點使用什麼類型的模型。

另外網路上也有將抖音真人跳舞影片轉成其他風格的跳舞影片的工作流,下載後會發現使用了各種千奇百怪的節點,即使透過Manger安裝了許多節點,也還有缺失的節點無法執行。

當我剛開始使用ComfyUI時遇過上述的問題許多次,做了很多功課跟嘗試才慢慢地知道如何找出缺失的節點並安裝,或是用其他節點取而代之。

本篇只是做為AI生成影片的一個引子,之後我會分享更多工作流跟新的AI資訊。


敬請期待。


raw-image



avatar-img
7.4K會員
81內容數
AI的時代已經來臨
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Frank Hsu的沙龍 的其他內容
這篇的主要目的是搭建出基本可用的Controlnet工作流。
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
這篇要研究文字提示詞的處理方式。
這篇要移除畫面中的特定物品後自動填滿
這篇的主要目的是搭建出基本可用的Controlnet工作流。
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
這篇要研究文字提示詞的處理方式。
這篇要移除畫面中的特定物品後自動填滿
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
與其僅從應用面思考AI,不如瞭解其背後的原理。本文章探討生成式AI的發展及應用,包含使用AI生成文章、影片等的原理和技術。透過AI的世界原理記錄,可以達到應用無窮的效果。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
與其僅從應用面思考AI,不如瞭解其背後的原理。本文章探討生成式AI的發展及應用,包含使用AI生成文章、影片等的原理和技術。透過AI的世界原理記錄,可以達到應用無窮的效果。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
Stable Diffusion Online是網頁版的Stable Diffusion AI圖像生成工具,省去了繁瑣的安裝和設定步驟,可以無限生成圖片,且不用註冊就可以免費使用,更棒的是還可以商業使用,為使用者提供更便捷的圖像生成體驗。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。