2024-08-13|閱讀時間 ‧ 約 83 分鐘

探索41個讓你驚豔的AI影像生成模型論文

📌引言

在上一篇中,我們介紹了生成影片的各種技術及其細節,若您有興趣,可以參考這篇。論文中提到生成影片的應用類型如下方。另外我們將從模型的架構應用來介紹相關模型論文(文章內容格式參考)

📌影像生成模型應用類型

raw-image

🐌文字to影片

這類型的模型大概有兩種,第一種是能產生簡單的運動(相機平移or頭髮飄動)。另一種是可以產生複雜的動作變化(ex)。

🐌圖片to影片

參考圖像進行動畫處理,有時會提供文本提示或其他引導信息。由於對生成的視頻內容具有高度可控性,這一領域最近被廣泛研究。

🐌聲音to影片

接受聲音剪輯作為輸入,有時與文本或圖像等其他模態結合。它們可以合成與聲源一致的視頻。典型應用包括生成說話的面孔、音樂視頻以及更一般的場景。

🐛影片衍生

模型將現有影片在時間域上延伸,研究團隊將其視為一個獨立的組別。

🐛影片編輯

使用現有影片作為基準,從中生成新影片。典型任務包括風格編輯、物體/背景替換、深度偽造和舊影片修復。

🐛智能決策

影像diffusion模型可以去做為真實世界的模擬器。根據代理當前狀態或任務的高層文本描述進行條件設置。這可以實現在模擬世界中進行規劃,以及在生成式世界模型中完全訓練強化學習策略。




📌影像生成模型介紹

🐌GAN(生成對抗式網路)影像生成

1. TGAN

  • 論文名稱:Train Sparsely, Generate Densely: Memory-efficient Unsupervised Training of High-resolution Temporal GAN
  • 發布時間:2018/11/22
  • 發布單位:Preferred Networks, Inc.
  • 中文摘要:在影片數據集上訓練生成對抗網絡(GAN)面臨挑戰,主因是數據集龐大且每個樣本複雜。一般而言,訓練GAN的計算成本會隨著解析度指數增加。本研究提出了一種記憶體效率高的無監督學習方法,使計算成本與解析度成線性關係。我們將生成器設計成多個小型子生成器的堆疊,並針對每個子生成器配置專屬鑑別器進行訓練。訓練中,我們在每對連續子生成器間加入降低幀率的輔助子採樣層。這讓每個子生成器能在不同解析度層級學習影片分佈。此外,我們僅需少量GPU便能訓練出性能遠超前代的複雜生成器。
  • 論文連結:https://arxiv.org/pdf/1811.09245

2. DVD-GAN

  • 論文名稱:ADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS
  • 發布時間:2019/07/15
  • 發布單位:DeepMind
  • 中文摘要:自然影像的生成模型已經透過強大的規模利用達到高保真度樣本。我們嘗試將這種成功帶入影片建模領域,展示了在複雜的Kinetics-600數據集上訓練的大型生成對抗網絡(GAN)能夠產生遠比以往更複雜、更高保真的影片樣本。我們提出的模型,稱為雙重影片鑑別器生成對抗網絡(DVD-GAN),通過利用其鑑別器的計算高效分解,能夠應對更長時間、更高解析度的影片。我們在影片合成和影片預測的相關任務上進行了評估,並在Kinetics-600上實現了新的最先進的Fréchet Inception距離預測,以及在UCF-101數據集上合成的最先進Inception分數,同時在Kinetics-600上建立了一個強大的合成基線。
  • 論文連結:https://arxiv.org/pdf/1907.06571v2

3. MoCoGAN

  • 論文名稱:MoCoGAN: Decomposing Motion and Content for Video Generation
  • 發布時間:2017/07/17
  • 發布單位:Snap Research & NVIDIA
  • 中文摘要:在影片中的視覺訊號可以被劃分為內容和運動兩部分。內容指的是影片中包含哪些物體,而運動則描述了這些物體的動態行為。基於這個前提,我們提出了一個用於影片生成的框架,稱為運動與內容分解生成對抗網絡(MoCoGAN)。這個框架通過將一系列隨機向量映射到一系列影片幀來生成影片。每個隨機向量包括一個內容部分和一個運動部分。內容部分保持固定,而運動部分則被實現為一個隨機過程。為了無監督學習運動和內容的分解,我們引入了一種新穎的對抗學習方案,這種方案利用圖像和影片的鑑別器。在多個具有挑戰性的數據集上的廣泛實驗結果,通過與最先進方法的質量和量化比較,證明了我們提出的框架的有效性。此外,我們展示了MoCoGAN能夠生成具有相同內容但不同運動的影片,以及具有不同內容和相同運動的影片。
  • 論文連結:https://arxiv.org/pdf/1707.04993

4. MoCoGAN-HD

  • 論文名稱:A Good Image Generator Is What You Need for High-Resolution Video Synthesis
  • 發布時間:2021/04/30
  • 發布單位:Rutgers University & Snap Inc. & University of Delaware
  • 中文摘要:影像與影片合成是兩個密切相關的領域,旨在從隨機噪聲中生成內容。雖然在改進基於影像的模型以處理大解析度、高品質渲染和影像內容的廣泛變化方面已顯示出迅速的進展,但要達到相當的影片生成結果仍然存在問題。我們提出了一個框架,利用現代影像生成器來渲染高解析度的影片。我們將影片合成問題定義為在預訓練且固定的影像生成器的潛在空間中發現一條軌跡。這樣的框架不僅能渲染高解析度的影片,而且在計算效率上也比現有方法高出許多。我們引入了一個運動生成器,用來發現所需的軌跡,其中內容和運動被解耦。有了這樣的表達,我們的框架允許廣泛的應用,包括內容和運動的操控。此外,我們引入了一個新任務,我們稱之為跨域影片合成,在這個任務中,影像和運動生成器在屬於不同領域的不相關數據集上進行訓練。這允許生成在所需影片數據不可用的情況下的移動物體。在各種數據集上的廣泛實驗展示了我們方法相對於現有影片生成技術的優勢。
  • 論文連結:https://arxiv.org/pdf/2104.15069

5. DIGAN

  • 論文名稱:Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks
  • 發布時間:2022/02/21
  • 發布單位:KAIST, NAVER AI Lab
  • 中文摘要:
  • 在深度學習時代,由於影片的時空複雜性和連續性,生成高品質的長影片仍然具有挑戰性。現有的先前研究嘗試通過將影片表示為RGB值的3D網格來模擬影片分佈,這限制了生成影片的規模並忽略了連續動態。在這篇論文中,我們發現最近興起的隱式神經表示(INRs)範式有效地緩解了這一問題,該範式將連續信號編碼進一個參數化的神經網絡中。利用影片的INRs,我們提出了一種新型的生成對抗網絡 — — 動態感知隱式生成對抗網絡(DIGAN),專門用於影片生成。具體來說,我們引入了(a)一個基於INR的影片生成器,通過不同地操縱空間和時間坐標來改善運動動態;(b)一個運動鑑別器,能夠高效地識別不自然的運動,無需觀察整個長幀序列。我們在各種數據集下展示了DIGAN的優越性,並帶來多個有趣的特性,例如長影片合成、影片外推和非自回歸影片生成。例如,DIGAN在UCF-101上的最新FVD分數比以往的最佳方法提高了30.7%,並且能夠在128×128解析度下訓練128幀的影片,比以前最先進方法的48幀多出80幀。
  • 論文連結:https://arxiv.org/pdf/2202.10571

🐌Transformer影像生成

6. VideoGPT

  • 論文名稱:VideoGPT: Video Generation using VQ-VAE and Transformers
  • 發布時間:2021/04/20
  • 發布單位:UC Berkeley
  • 中文摘要:使用 3D VQ-VAE(Van Den Oord 等人,2017 年)來學習緊湊的影片表徵。然後訓練一個自回歸Transformer模型,根據前幀來預測下一幀的潛碼。雖然 VideoGPT 沒有超越當時最佳的基於 GAN 的模型,即 TGAN-v2 和 DVD-GAN,但考慮到其簡單的架構,它在 UCF-101 基準上取得了可尊的 IS 分數。
  • 論文連結:https://arxiv.org/pdf/2104.10157

7. NÜWA

  • 論文名稱:NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion
  • 發布時間:2021/11/24
  • 發布單位:Microsoft Research Asia 2 Peking University
  • 中文摘要:也使用 3D VQ-VAE 和自回歸Transformer生成器。它在多個數據集上進行預訓練,使其能夠進行各種生成和編輯任務,在影片和影像領域。其文本條件影片生成能力在 MSR-VTT 數據集上進行了評估。
  • 論文連結:https://arxiv.org/pdf/2111.12417

8. TATS

  • 論文名稱:Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer
  • 發布時間:2022/04/07
  • 發布單位:University of Maryland & Meta AI & Georgia Tech
  • 中文摘要:引入了幾項改進,解決了自回歸Transformer模型在生成長影片序列時面臨的質量下降問題。它在幾乎所有指標上都超過了先前的方法,包括 UFC-101(無條件和類別條件)、Tai-Chi-HD 和 Sky Time-lapse。只有 DIGAN 在 Sky Time-lapse 基準上保持更高的 FVD 分數。
  • 論文連結:https://arxiv.org/pdf/2204.03638

9. CogVideo

  • 論文名稱:CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
  • 發布時間:2022/05/29
  • 發布單位:Tsinghua University & BAAI
  • 中文摘要:大規模預訓練的Transformer模型已在文本(GPT-3)和文本到圖像(DALL-E 和 CogView)生成領域創造了里程碑。其應用於影片生成仍面臨許多挑戰:潛在的巨大計算成本使得從零開始訓練變得無法承受;文本-影片數據集的稀缺性和弱相關性阻礙了模型對複雜運動語義的理解。在這項工作中,我們介紹了一個由繼承預訓練文本到圖像模型CogView2訓練的9B參數轉換器模型CogVideo。我們還提出了多幀速率層次訓練策略,以更好地對齊文本和影片片段。作為(可能是)第一個開源的大規模預訓練文本到影片模型,CogVideo在機器和人類評估中均大幅超越所有公開可用的模型。
  • 論文連結:https://arxiv.org/pdf/2205.15868

🐌Diffusion影像生成

10. VDM




  • 論文名稱:Video Diffusion Models
  • 發布時間:2021/07/01
  • 發布單位:Google Research
  • 中文摘要:它基於 Çiçek 等人(2016)提出的 3D UNet 架構,並通過因式分解的時空注意塊進行擴展。這產生了 16 幀長、64×64 像素的影片。這些低解析度影片隨後可以通過一個更大的上採樣模型擴展到 128×128 像素和 64 幀。模型在一個相對較大的標註影片數據集以及這些影片的單幀上進行訓練,這使得在推理時可以進行文本引導的影片生成。然而,這種方法的一個限制是標註影片數據相對難以獲得。
  • 論文連結:https://arxiv.org/pdf/2204.03458

11. Make-a-Video

  • 論文名稱:Make-A-Video: Text-to-Video Generation without Text-Video Data
  • 發布時間:2022/09/29
  • 發布單位:Meta AI
  • 中文摘要:通過將他們的模型在標註影像上的監督訓練與在未標註影片上的非監督訓練相結合來解決這個問題。這使他們能夠訪問更廣泛和更多樣化的訓練數據庫。他們還將他們的 UNet 模型中的卷積層分為 2D 空間卷積和 1D 時間卷積,從而減輕了全 3D Unet 相關的一些計算負擔。最後,他們在時間上採樣或影片預測任務上訓練了一個遮罩的時空解碼器。這使得生成長達 76 幀的長影片成為可能。Make-a-Video 在 UCF-101 和 MSR-VTT 基準上進行了評估,其表現超越了所有先前的 GAN 和自回歸變壓器模型。
  • 論文連結:https://arxiv.org/pdf/2209.14792

12. ImagenVideo

  • 論文名稱:IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS
  • 發布時間:2022/10/05
  • 發布單位:Google Research, Brain Team
  • 中文摘要:他們從一個基礎模型開始,該模型合成 40×24 像素和 16 幀的影片,並通過六個額外的擴散模型上採樣到最終解析度 1280×768 像素和 128 幀。低解析度的基礎模型使用因式分解的時空卷積和注意力。為了節省計算資源,上採樣模型僅依賴於卷積。ImagenVideo 在一個大型專有的標註影片和影像的數據集上進行訓練,使其能夠模擬各種視覺風格。該模型還展示了生成文本動畫的能力,這是大多數其他模型難以實現的。
  • 論文連結:https://arxiv.org/pdf/2209.14792

13. MagicVideo

  • 論文名稱:MagicVideo: Efficient Video Generation With Latent Diffusion Models
  • 發布時間:2023/05/11
  • 發布單位:ByteDance Inc.
  • 中文摘要:與之前在像素空間運作的模型不同,他們的擴散過程發生在一個由預訓練的變異自編碼器(VAE)定義的低維潛在嵌入空間中。這顯著提高了影片生成過程的效率。這個 VAE 在影片數據上進行訓練,因此可以減少與文本到影像模型中使用的 VAE 相比的動作伪影。作者使用一個預訓練的文本到影像模型作為他們影片模型的主幹,並增加了因果注意塊。該模型在標註和未標註影片的數據集上進行微調。它產生的影片為 256×256 像素和 16 幀,可以使用單獨的空間和時間超解析度模型上採樣到 1024×1024 像素和 61 幀。除了文本到影片生成外,作者還展示了他們模型的影片編輯和影像動畫能力。
  • 論文連結:https://arxiv.org/pdf/2211.11018

14. VideoLDM

  • 論文名稱:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
  • 發布時間:2023/04/18
  • 發布單位:ByteDance Inc.
  • 中文摘要:與 Zhou 等人(2022)類似,他們在一個預訓練的文本到影像擴散模型中增加了時效注意層,並在標註影片數據上進行微調。他們展示了,除了文本到影片的合成外,他們的模型還能以自回歸方式生成長距離駕駛汽車影片序列,以及使用 Dreambooth(Ruiz 等人,2023)生成個性化角色影片。
  • 論文連結:https://arxiv.org/pdf/2304.08818

🐌免訓練模型

15. Text2Video-Zero

  • 論文名稱:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
  • 發布時間:2023/05/23
  • 發布單位:Picsart AI Resarch (PAIR) & UT Austin & U of Oregon & UIUC
  • 中文摘要:它基於 Çiçek 等人(2016)提出的 3D UNet 架構,並通過因式分解的時空注意塊進行擴展。這產生了 16 幀長、64×64 像素的影片。這些低解析度影片隨後可以通過一個更大的上採樣模型擴展到 128×128 像素和 64 幀。模型在一個相對較大的標註影片數據集以及這些影片的單幀上進行訓練,這使得在推理時可以進行文本引導的影片生成。然而,這種方法的一個限制是標註影片數據相對難以獲得。
  • 論文連結:https://arxiv.org/pdf/2303.13439

🐌個人化生成

16.AnimateDiff

  • 論文名稱:AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (ICLR’24 spotlight)
  • 發布時間:2023/07/10
  • 發布單位:The Chinese University of Hong Kong & Shanghai Artificial Intelligence Laboratory & Stanford University
  • 中文摘要:隨著文本到圖像(T2I)擴散模型(例如 Stable Diffusion)的進步和相應的個性化技術(如 DreamBooth 和 LoRA)的出現,每個人都可以以負擔得起的成本將他們的想像力轉化為高質量的圖像。然而,為現有的高質量個性化 T2I 添加運動動態並使它們能夠生成動畫仍然是一個未解決的挑戰。在論文中,我們提出了一個實用的框架 AnimateDiff,用於為個性化 T2I 模型進行動畫處理,無需特定模型的調整。我們框架的核心是一個可插拔的運動模組,該模組可進行一次訓練,然後無縫整合到來自同一基本 T2I 的任何個性化 T2I 中。通過我們提出的訓練策略,運動模組有效地從現實世界的影片中學習可轉移的運動先驗知識。一旦訓練完成,就可以將運動模組插入到個性化 T2I 模型中,形成個性化動畫生成器。我們進一步提出了一種輕量級的微調技術 MotionLoRA,使得預訓練的運動模組能夠適應新的運動模式,如不同的鏡頭類型,同時具有低訓練和數據收集成本。我們在來自社區的幾個公共代表性個性化 T2I 模型上評估了 AnimateDiff 和 MotionLoRA。結果表明,我們的方法幫助這些模型生成在時間上平滑的動畫片段,同時保持視覺質量和運動多樣性。代碼和預訓練的權重可在此 https 網址上獲得
  • 論文連結:https://arxiv.org/pdf/2307.04725

🐌影像調節生成

17. MCDiff

  • 論文名稱:Motion-Conditioned Diffusion Model for Controllable Video Synthesis
  • 發布時間:2023/04/27
  • 發布單位:University of California, Merced & Meta & NVIDIA & Google Research
  • 中文摘要:最近在擴散模型上的進步顯著提升了合成內容的質量和多樣性。為了發揮擴散模型的表達力,研究人員探索了各種可控機制,允許用戶直觀地指導內容合成過程。儘管最新的努力主要集中在影片合成上,但在控制和描述所需內容及運動方面仍缺乏有效方法。為了填補這一缺口,我們引入了MCDiff,一種條件擴散模型,它可以從一個起始影像框架和一組筆劃生成影片,這些筆劃允許用戶指定合成的目標內容和動態。為了解決稀疏運動輸入的歧義性並實現更好的合成質量,MCDiff首先利用一個流完成模型預測基於影片框架的語義理解和稀疏運動控制的密集影片運動。然後,擴散模型合成高質量的未來幀,形成輸出影片。我們通過質量和數量分析顯示,MCDiff在以筆劃指導的可控影片合成中達到了極致的視覺品質。在MPII Human Pose的額外實驗進一步展示了我們模型在多樣內容和運動合成上的能力。
  • 論文連結:https://arxiv.org/pdf/2304.14404

18. SEINE

  • 論文名稱:SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
  • 發布時間:2023/10/31
  • 發布單位:Shanghai Artificial Intelligence Laboratory
  • 中文摘要:通過在輸入噪音的通道維度上連接圖像的 VAE 潛在表示並添加一個額外的遮罩通道來訓練一個圖像條件視頻生成模型,該遮罩通道指示需要預測哪些幀。這使得模型可以靈活地條件設定圖像,以便在提供任何給定幀作為條件信號的情況下生成影片。SEINE 從文本到影像模型 LaVie(Wang 等人,2023c)初始化並在 WebVid-10M(Bain 等人,2021)以及內部私有數據上進行訓練。在推理期間,該模型能夠執行自回歸長影音生成(通過重用前一影像剪輯的最後一幀作為預測下一影像的第一幀),在不同場景之間生成過渡(通過使用來自不同場景的兩幀作為條件第一幀和最後一幀並生成中間幀)和圖像動畫(通過條件影像生成過程中的輸入第一幀)。
  • 論文連結:https://arxiv.org/pdf/2310.20700

🐌影像延伸

19. NUWA-XL

  • 論文名稱:NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
  • 發布時間:2023/03/22
  • 發布單位:University of Science and Technology of China & Microsoft Research Asia & Microsoft Azure AI
  • 中文摘要:模型使用迭代層次方法生成長時間影像序列,這些序列長達數分鐘。它首先從分開的文本提示生成均勻間隔的關鍵幀,形成影像的大概輪廓。然後用一個局部擴散模型填充兩個關鍵幀之間的幀。該過程被迭代應用以增加每次通過的時間分辨率。由於這可以並行化,模型比自回歸方法實現更快的計算時間,用於長影像生成。作者在一個由標注的Flintstones卡通組成的新訓練數據集上訓練模型。將簡單的時間卷積和注意力塊插入到預訓練的文本到圖像模型中以學習時間動態。
  • 論文連結:https://arxiv.org/pdf/2303.12346

20. LVDM

  • 論文名稱:Latent Video Diffusion Models for High-Fidelity Long Video Generation
  • 發布時間:2022/11/23
  • 發布單位:The Hong Kong University of Science and Technology & Tencent AI Lab
  • 中文摘要:最近,人工智能生成的內容引起了廣泛關注,但製造逼真影像仍然是一項挑戰。儘管在這一領域已經嘗試使用了生成對抗網絡(GANs)和自迴歸模型,但生成影像的視覺品質和長度遠未達到令人滿意的水平。近期,擴散模型顯示出了顯著的成果,但需要龐大的計算資源。為了解決這一問題,我們通過利用低維度的3D潛在空間引入了輕量級影像擴散模型,在有限的計算預算下顯著優於之前的像素空間影像擴散模型。此外,我們提出了潛在空間的分層擴散,使得可以生成超過一千幀的更長視頻。為了進一步克服長視頻生成的性能退化問題,我們提出了條件潛在擾動和無條件引導,有效地減輕了影像長度延長過程中累積的錯誤。在不同類別的小領域數據集上進行的廣泛實驗表明,我們的框架生成的視頻比以前的強基準更真實、更長。我們還提供了大規模文本到影像生成的擴展,以展示我們工作的優越性。
  • 論文連結:https://arxiv.org/pdf/2211.13221  

21. FDM

  • 論文名稱:Flexible Diffusion Modeling of Long Videos
  • 發布時間:2022/05/23
  • 發布單位:University of British Columbia
  • 中文摘要:這篇論文介紹了一個基於去噪擴散概率模型的影像建模框架,能夠在多種真實環境中生成長時長的影片完成品。作者提出了一種生成模型,該模型可以在測試時抽樣任意子集的影像幀,並依賴於其他子集的條件進行。為此,他們展示了一種適應該目的的架構。這使得他們能夠有效地比較和優化長影像中幀抽樣順序的各種計劃,並利用選擇性的稀疏和長範圍條件。通過在多個數據集上的實驗,展示了其視頻建模相較於以往工作的改進,並能夠生成長達25分鐘的時間一致性影片。此外,他們還發布了一個新的影像建模數據集,以及基於CARLA自動駕駛模擬器生成的視頻的語義上有意義的評估指標。
  • 論文連結:https://arxiv.org/pdf/2205.11495

22. VDT

  • 論文名稱:VDT: General-purpose Video Diffusion Transformers via Mask Modeling
  • 發布時間:2023/05/22
  • 發布單位:Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China
  • 中文摘要:該模型採用了視覺變換器架構(Peebles & Xie, 2022)。這種架構相較於常用的UNet具有一些報告的優勢,包括能夠捕捉長時間範圍的動態、接受不同長度的條件輸入,以及模型的可擴展性。VDT在狹窄的無標籤影片數據集上進行了訓練,並在這些限制的領域中完成了如視頻預測、時間插值和圖像動畫等任務。
  • 論文連結:https://arxiv.org/pdf/2305.13311

🐌長影片生成

23. Gen-L-Video

  • 論文名稱:Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising
  • 發布時間:2023/05/29
  • 發布單位:Shanghai AI Laboratory
  • 中文摘要:基於文本驅動的生成模型在圖像生成和編輯領域取得了顯著進展。這項研究探索了將文本驅動能力擴展到生成和編輯多文本條件的長視頻的潛力。當前的視頻生成和編輯方法創新性強,但通常僅限於極短的視頻(通常少於24幀),且僅限於單一文本條件。這些限制顯著限制了它們的應用範圍,因為真實世界的視頻通常包含多個段落,每個段落都承載著不同的語義信息。為了應對這一挑戰,我們引入了一種名為Gen-L-Video的新範式,能夠擴展現有的短視頻擴散模型,用於生成和編輯包含數百幀及多種語義段落的視頻,而無需額外訓練,同時保持內容的一致性。我們實施了三種主流的文本驅動視頻生成和編輯方法,並將其擴展以適應更長的視頻,並結合我們提出的範式,使之充滿多種語義段落。我們的實驗結果顯示,我們的方法顯著拓寬了視頻擴散模型的生成和編輯能力,為未來的研究和應用提供了新的可能性。
  • 論文連結:https://arxiv.org/pdf/2305.18264

24. MovieFactory

  • 論文名稱:MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images
  • 發布時間:2023/06/12
  • 發布單位:Center for Future Media, University of Electronic Science and Technology of China & Microsoft Research & National Taiwan Universit
  • 中文摘要:這篇論文介紹了MovieFactory,一個能夠根據自然語言需求生成高品質、多場景、帶有聲音的電影的自動化框架。這是首個完全自動化的電影生成模型,通過簡單的文本輸入即可創作出具有流暢過渡、引人入勝的影片。該方法包括使用ChatGPT將用戶的文本擴展為詳細的電影腳本,並利用影像生成和音頻檢索技術將腳本視覺化和聲音化。MovieFactory還擴展了預訓練的文本到圖像擴散模型,通過空間微調和時間學習來生成逼真且具有運動效果的影片。大量實驗證明,MovieFactory能夠生成具有真實視覺效果和無縫音效的電影,為用戶提供了新穎且身臨其境的體驗。
  • 論文連結:https://arxiv.org/pdf/2306.07257

25. GLOBER

  • 論文名稱:GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER
  • 發布時間:2023/11/23
  • 發布單位: Institute of Automation, Chinese Academy of Sciences (CASIA), School of Artificial Intelligence, University of Chinese Academy of Sciences (UCAS)
  • 中文摘要:這篇論文介紹了一種名為GLOBER的視頻生成新方法。視頻生成需要全球一致性和局部真實感,而GLOBER通過非自回歸方式實現了這一點。具體而言,GLOBER首先生成全局特徵,以獲得全面的全局指導,然後基於這些全局特徵來合成視頻幀,從而生成連貫的視頻。該方法引入了一種視頻自編碼器,其中視頻編碼器將視頻編碼為全局特徵,而視頻解碼器(基於擴散模型構建)以非自回歸方式解碼全局特徵並合成視頻幀。為了實現最大的靈活性,視頻解碼器通過歸一化的幀索引來感知時間信息,從而能夠合成具有預定起始和結束幀索引的任意子視頻片段。此外,該方法引入了一種新型對抗性損失來提高合成視頻幀之間的全局一致性和局部真實感。最終,GLOBER使用基於擴散的視頻生成器來適應由視頻編碼器輸出的全局特徵,進行視頻生成。大量實驗結果證明了該方法的有效性和效率,並在多個基準測試中達到了新的最先進結果。
  • 論文連結:https://arxiv.org/pdf/2309.13274

26. VideoFusion

  • 論文名稱:VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation
  • 發布時間:2023/03/15
  • 發布單位: University of Chinese Academy of Sciences (UCAS), Alibaba Group, Ant Group, Center for Research on Intelligent Perception and Computing (CRIPAC), Institute of Automation, Chinese Academy of Sciences (CASIA), Nanjing University
  • 中文摘要:這篇論文介紹了一種名為VideoFusion的新型視頻生成方法。擴散概率模型(DPM)通過逐漸向數據點添加噪聲來構建前向擴散過程,並學習反向去噪過程以生成新樣本,這種方法已顯示出在處理複雜數據分佈方面的潛力。然而,將DPM應用於視頻生成仍然具有挑戰,主要是因為視頻數據的高維度。以往的方法通常採用標準擴散過程,對視頻片段中的幀進行獨立噪聲處理,忽略了內容冗餘和時間相關性。為了解決這個問題,本研究提出了一種分解擴散過程的方法,將每幀的噪聲分解為在所有幀中共享的基礎噪聲和沿時間軸變化的殘差噪聲。去噪流程採用兩個聯合學習的網絡來匹配噪聲分解。實驗表明,我們的方法VideoFusion在高質量視頻生成方面超越了基於GAN和擴散的替代方案。我們還展示了我們的分解公式可以利用預訓練的圖像擴散模型,並很好地支持文本條件的視頻創作。
  • 論文連結:https://arxiv.org/pdf/2303.08320

27. GAIA-1

  • 論文名稱:GAIA-1: A Generative World Model for Autonomous Driving
  • 發布時間:2023/09/29
  • 發布單位: Wayve
  • 中文摘要:這段文本介紹了一個名為GAIA-1(「Generative AI for Autonomy」)的生成世界模型,旨在應對自駕車技術中面臨的挑戰。自駕車承諾能夠徹底改變交通運輸,但建立能夠安全應對現實世界複雜情境的系統仍然具有挑戰。主要問題在於如何有效預測隨著車輛行為變化可能出現的各種潛在結果。為了解決這一挑戰,我們提出了GAIA-1,這是一種生成世界模型,利用影片、文本和行為輸入來生成現實駕駛場景,同時提供對自車行為和場景特徵的細緻控制。我們的方法將世界建模視為一個無監督的序列建模問題,通過將輸入映射為離散的標記來預測序列中的下一個標記。GAIA-1的模型具有以下特性:學習高層次結構和場景動態、上下文感知、泛化能力以及幾何理解。GAIA-1所學到的表徵能夠捕捉未來事件的期望,並生成現實的樣本,這為自駕技術領域的創新提供了新的可能性,加速了自駕技術的訓練和提升。
  • 論文連結:https://arxiv.org/abs/2309.17080

🐌影像編輯

28. Dreamix

  • 論文名稱:Dreamix: Video Diffusion Models are General Video Editors
  • 發布時間:2023/02/02
  • 發布單位:Google Research, The Hebrew University of Jerusalem
  • 中文摘要:這篇論文介紹了一種新的基於擴散模型的方法,用於進行文本驅動的影片編輯。雖然擴散模型在影像編輯方面已經取得了前所未有的真實生成效果,但在影片編輯方面的應用仍然很少。我們提出了首個能夠進行文本驅動的運動和外觀編輯的擴散模型方法。我們的方法使用影片擴散模型,在推斷過程中將原始影片中的低解析度時空信息與新合成的高解析度信息結合,以對齊指導文本提示。由於高保真度的生成需要保留原始影片的一些高解析度信息,我們加入了初步的微調階段,以顯著提高生成的保真度。我們還提出了一種新混合目標來改進運動編輯性,這個目標同時進行完整時間注意力微調和時間注意力遮罩。此外,我們引入了一種新的影像動畫框架。我們首先通過簡單的影像處理操作,如複製和透視幾何投影,將影像轉換為粗略的影片,然後使用我們的通用影片編輯器進行動畫處理。作為進一步的應用,我們的方法也可以用於主題驅動的影片生成。大量的質量和數字實驗展示了我們方法卓越的編輯能力,並證明了其相對於基線方法的優越性能。
  • 論文連結:https://dreamix-video-editing.github.io/

29. Tune-A-Video

  • 論文名稱:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation
  • 發布時間:2022/11/22
  • 發布單位:Show Lab, National University of Singapore ,ARC Lab,Tencent PCG ,School of Computing, National University of Singapore
  • 中文摘要:這篇論文介紹了一種新的文本到影片(T2V)生成方法 — 單次影片調整(One-Shot Video Tuning),旨在複製文本到影像(T2I)生成的成功。傳統的T2V生成方法依賴於大規模的影片數據集進行訓練,雖然效果不錯,但計算成本高昂。我們的方法則僅需要一對文本和影片樣本來進行訓練。我們的方法基於先進的T2I擴散模型,這些模型在大規模影像數據上預訓練。我們的關鍵觀察有兩點:1)T2I模型能夠生成表達動詞的靜態影像;2)將T2I模型擴展為同時生成多張影像,顯示出令人驚訝的內容一致性。為了進一步學習連續的運動,我們引入了Tune-A-Video,這是一種專門的時空注意力機制和高效的單次調整策略。在推斷過程中,我們使用DDIM反演來提供結構指導以進行取樣。大量的質量和數字實驗展示了我們方法在各種應用中的卓越能力。
  • 論文連結:https://arxiv.org/abs/2212.11565

30. Video-P2P

  • 論文名稱:Video-P2P: Video Editing with Cross-attention Control
  • 發布時間:2023/03/08
  • 發布單位:The Chinese University of Hong Kong, SmartMore, Adobe
  • 中文摘要:這篇論文介紹了一個名為Video-P2P的創新框架,用於現實世界中的影片編輯,並具備跨注意力控制的功能。雖然注意力控制已在預訓練的影像生成模型中證明了其在影像編輯方面的有效性,但目前尚無大規模的影片生成模型公開提供。Video-P2P針對這一限制,通過調整影像生成擴散模型來完成各種影片編輯任務。具體而言,我們首先調整了一個Text-to-Set(T2S)模型,以完成近似的反向操作,然後優化共享的無條件嵌入來實現準確的影片反向操作,並保持較小的記憶體開銷。對於注意力控制,我們引入了一種新型的解耦指導策略,這種策略對源提示和目標提示使用不同的指導策略。針對源提示優化的無條件嵌入提高了重建能力,而針對目標提示初始化的無條件嵌入則提升了可編輯性。結合這兩個分支的注意力圖使得詳細編輯成為可能。這些技術設計支持了各種文本驅動的編輯應用,包括詞語替換、提示優化和注意力重加權。Video-P2P能夠在現實世界影片中生成新角色,同時最佳地保留原有的姿勢和場景,其性能顯著優於以往的方法。
  • 論文連結:https://arxiv.org/pdf/2303.04761

🐌深度條件編輯

31. Pix2Video

  • 論文名稱:Pix2Video: Video Editing using Image Diffusion
  • 發布時間:2023/03/22
  • 發布單位:Adobe Research, University College London
  • 中文摘要:使用預訓練的文本到影像模型作為影片編輯的基礎,避免了對每個影片進行微調的需求。透過DDIM反演和從原始影片提取的深度圖來保留空間結構,並通過在UNet解碼器中注入前幀的潛在特徵來確保時間一致性。即使使用較輕量的架構,也能在編輯和一致性方面表現良好。
  • 論文連結:https://arxiv.org/pdf/2303.12688

32. Runway Gen-1

  • 論文名稱:Structure and Content-Guided Video Synthesis with Diffusion Models
  • 發布時間:2023/03/06
  • 發布單位:Runway
  • 中文摘要:在保持原始影片內容和結構的同時進行風格編輯。通過CLIP嵌入和深度估算來條件擴散過程,並使用2D空間卷積和1D時間卷積。提供細緻的時間一致性和可編輯性,並且Runway Gen-2模型還增加了影像到影片和文本到影片的功能。
  • 論文連結:https://arxiv.org/abs/2302.03011

33. Make-Your-Video

  • 論文名稱:Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance
  • 發布時間:2023/06/01
  • 發布單位:CUHK, Tencent AI Lab, HKUST
  • 中文摘要:擴展了預訓練的文本到影像模型,加入了2D空間卷積、1D時間卷積層和跨幀注意力層。使用因果注意力掩碼來限制參考幀數量。在圖像質量和一致性之間提供了良好的平衡,並在大規模無標籤影片數據集上進行訓練。
  • 論文連結:https://arxiv.org/pdf/2306.00943

🐌姿勢條件編輯

34. Follow Your Pose

  • 論文名稱:Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos
  • 發布時間:2023/04/03
  • 發布單位:Tsinghua Shenzhen International Graduate Schoo, The Hong Kong University of Science and Technology, Tencent AI Lab, Shenzhen Institute of Advanced Technology
  • 中文摘要:此模型在Tune-A-Video中條件去噪過程,使用從輸入影片提取的姿勢特徵。這些特徵通過殘差連接傳遞至UNet,保持相對自然的運動。生成的輸出不受源影片限制,但能保持較自然的主體運動。
  • 論文連結:https://arxiv.org/pdf/2304.01186

35.Make-A-Protagonist

  • 論文名稱:Make-A-Protagonist: Generic Video Editing with Visual and Textual Clues
  • 發布時間:2024/02/19
  • 發布單位:National University of Singapore, The University of Hong Kong, The Hong Kong University of Science and Technology
  • 中文摘要:結合多個專家模型來進行主體替換和風格編輯。通過Blip-2、Grounding DINO、Segment Anything和XMem等技術檢測和隔離主要主體。支持主體替換和背景更改,並使用Stable Diffusion進行深度圖引導的修補。
  • 論文連結:https://arxiv.org/pdf/2305.08850

🐌利用預訓練影片生成模型進行影片編輯

37. UniEdit

  • 論文名稱:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
  • 發布時間:2024/02/20
  • 發布單位:Zhejiang University, Microsoft Research Asia, Peking University
  • 中文摘要:使用預訓練的文本到影片生成模型LaVie來進行零-shot影片編輯。通過輔助重建分支和運動參考分支進行特徵注入。確保生成的影片具有與源影片相同的空間結構和運動。
  • 論文連結:https://arxiv.org/pdf/2402.13185

38. AnyV2V

  • 論文名稱:AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks
  • 發布時間:2024/03/21
  • 發布單位:University of Waterloo, Vector Institute, Harmony.AI, 
  • 中文摘要:使用預訓練的影像到影片生成模型進行零-shot影片編輯。將影片編輯分為兩個階段,第一階段修改首幀,第二階段將編輯後的幀和源影片的DDIM反演潛在圖輸入I2V生成模型。兼容任何現有的影像編輯模型,支持廣泛的編輯任務。
  • 論文連結:https://arxiv.org/pdf/2403.14468

🐌多條件編輯

40. ControlVideo

  • 論文名稱:ControlVideo: Training-free Controllable Text-to-Video Generation
  • 發布時間:2023/03/22
  • 發布單位:Harbin Institute of Technology, Huawei Cloud
  • 中文摘要:擴展ControlNet至影片生成任務,通過全跨幀注意力改善影片幀之間的空間和時間一致性。支持長影片的生成,並能有效減少小細節的閃爍問題。
  • 論文連結:https://arxiv.org/pdf/2305.13077

🐌影片修復

41. ColorDiffuser

  • 論文名稱:Video Colorization with Pre-trained Text-to-Image Diffusion Models
  • 發布時間:2023/06/02
  • 發布單位:The Chinese University of Hong Kong, Caritas Institute of Higher Education
  • 中文摘要:專門用於灰階影片上色,利用預訓練的文本到影像模型和特定訓練的適配器模塊。支持在時間方向上進行顏色信息的傳播,提高顏色準確性和時間一致性。
  • 論文連結:https://arxiv.org/pdf/2306.01732
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.