AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

仁和黃

2024/07/05閱讀時間約 12 分鐘

📌簡介

此篇為一份調查論文，此篇調查主要是在針對Diffusion模型利用於生成影片的任務。

這邊作者將調查到的資訊分類出來大概有幾大類。接下來我們會跟著論文的腳步向下介紹。

📌Diffusion模型應用類型

🐌文字to影片

這類型的模型大概有兩種，第一種是能產生簡單的運動(相機平移or頭髮飄動)。另一種是可以產生複雜的動作變化(ex)。

🐌圖片to影片

參考圖像進行動畫處理，有時會提供文本提示或其他引導信息。由於對生成的視頻內容具有高度可控性，這一領域最近被廣泛研究。

🐌聲音to影片

接受聲音剪輯作為輸入，有時與文本或圖像等其他模態結合。它們可以合成與聲源一致的視頻。典型應用包括生成說話的面孔、音樂視頻以及更一般的場景。

🐛影片衍生

模型將現有影片在時間域上延伸，研究團隊將其視為一個獨立的組別。

🐛影片編輯

使用現有影片作為基準，從中生成新影片。典型任務包括風格編輯、物體/背景替換、深度偽造和舊影片修復。

🐛智能決策

影像diffusion模型可以去做為真實世界的模擬器。根據代理當前狀態或任務的高層文本描述進行條件設置。這可以實現在模擬世界中進行規劃，以及在生成式世界模型中完全訓練強化學習策略。

📌Diffusion模型生成圖像架構

常見的Diffusion模型架構皆為使用像是U-Net或是Transformers，如果想要了解U-Net也可以參考我這篇筆記XD(趁機推廣🤣

🐌U-Net

U-Net是目前再diffusion模型中一個很熱門的架構，像是之前整理過的DDPMs就是使用U-Net作為diffusion模型的解碼器，而U-Net在生成中通常為以下步驟：

（1）將輸入編碼成空間分辨率越來越低的潛在表示（2）通過固定數量的編碼層增加特徵通道數。（3）將得到的「中間」潛在表示通過相同數量的解碼層上採樣回原始大小。

在原始的UNet中只使用ResNet塊，但大多數diffusion模型在每一層中都將它們與Vision Transformer區塊交錯使用，像是上方的架構圖，ResNet區塊主要使用2D捲積，而中間可以透過Vision Transformer的自注意力機制以及交叉注意力機制，這樣的作法可以在生成的過程中根據額外信息（如文本提示和當前time steps）進行條件設置。

🐌Vision Transformer

Vision Transformer是一種基於為自然語言處理開發的變換器架構的Generate diffusion模型的重要架構。因此，它同樣結合了多頭注意力層、規範化層、殘差連接以及線性投影層，將輸入標記向量轉換為輸出標記向量。若是生成圖像Vision Transformer在生成中通常為以下步驟：

（1）圖像分割：將輸入圖像分割成多個小塊（補丁），並為每個補丁創建嵌入表示。（2）注意力機制：計算這些補丁之間的關係，確定哪些部分更重要（3）信息整合：根據計算出的重要性，將各個補丁的信息組合起來。（4）輸出生成：基於整合的信息，生成最終的輸出圖像。

純粹基於視覺變換器的擴散模型被提出作為標準UNet的替代方案。整個模型僅由一系列變換器塊組成，而不使用卷積。這種方法有明顯的優勢，如在生成視頻長度方面的靈活性。雖然基於UNet的模型通常生成固定長度的輸出序列，但變換器模型可以自回歸地預測相對任意長度序列中的標記。

🐌Cascaded Diffusion Models

由多個在不斷增加的圖像分辨率下運作的UNet模型組成。

工作原理：（1）將一個模型的低分辨率輸出圖像進行上採樣。（2）將上採樣後的圖像作為輸入傳遞給下一個模型。（3）通過這種方式生成高保真度的圖像版本。

❗自從採用潛在擴散模型（Latent Diffusion Models）後，CDM的使用已大大減少，因為LDM允許以較少的資源原生生成高保真度圖像。

🐌Latent Diffusion Models

潛在擴散模型（Latent Diffusion Models）是UNet基本架構的重要發展，現已成為圖像和視頻生成任務的事實標準。若是生成圖像Vision Transformer在生成中通常為以下步驟：

（1）不在RGB空間操作，使用預訓練的向量量化變分自編碼器（VQVAE）將輸入圖像編碼為具有較低空間分辨率和更多特徵通道的潛在表示。（2）將這個低分辨率表示傳遞給UNet，整個擴散和降噪過程在VQ-VAE編碼器的潛在空間中進行。（3）然後使用VQ-VAE的解碼器部分將降噪後的潛在表示解碼回原始像素空間。

為什麼要在低維度空間中操作?主要是因為可以節省大量計算資源，另外此模型也允許生成比之前的擴散模型更高分辨率的圖像。向是我們常聽到的Stable Diffusion 1就是經典的LDM模型。

📌如何讓影片動的合理?時間動態

前面我們講解了目前生成圖像的方法，但有個挑戰就是若是單純地為每一幀生成圖像會導致缺乏空間和時間連貫性接下來我們會下去講解目前的解決方案。

🐌空間-時間注意力機制

大多數的影片Diffusion模型通常是修改了UNet 模型中的自注意層，這些層包括一個視覺變換器，用於計算圖像中某個查詢區塊與同一圖像中所有其他區塊之間的相似性。這一基本機制可以通過多種方式擴展。

時間注意力：關注影像中其他畫面上同一位置的區域。
完全時空注意力：關注所有畫面上的所有區域。
因果注意力：只會關注之前畫面上的區域，若為稀疏因果注意力，則只關注少數幾個之前的畫面，比如最初的和直接前一個畫面。

🐌時間上採樣

通常在單批次處理長影片往往超出當前硬件的容量。儘管已經探索了多種技術來減少計算負擔（例如稀疏因果注意力），大多數模型仍然只能在高端GPU上生成幾秒鐘長度的影片。

為了克服這一限制，許多研究採用了分層上採樣技術，這意味著我們不是一下子生成每一幀，而是先生成一些間隔比較大的主要幀，這些幀稱為“關鍵幀”。然後，我們用兩種方法來生成這些關鍵幀之間缺失的幀，也就是“中間幀”：

插值鄰近的關鍵幀：利用已經生成的兩個相鄰的關鍵幀，接著預測和填充它們之間的幀。
使用Diffusion模型進行額外的過程（基於兩個關鍵幀）：根據已有的兩個關鍵幀來生成這兩幀之間的所有中間幀。可以更真實地再現中間的動作。

🐌結構保留

面對兩個相對立的目標：一方面要保持原始視頻的基本結構不變，另一方面又希望加入一些新的變化。如果過分堅持原視頻的結構，可能會限制模型進行編輯的能力；但如果改變太大，則可能損害視頻的空間和時間連貫性，導致生成的結果在空間和時間上看起來不自然。

為了保持輸入視頻的大致結構，一個常見的方法是通過調整每個輸入幀添加的噪聲量，使用者可以控制輸出視頻應該有多接近原始視頻，或者在編輯時應該有多大的自由度。

不過實際上，這種方法本身不足以保持輸入視頻的更細微的結構，因此通常會與其他技術結合使用。

而這些缺點可以通過在去噪過程中增加對原始影片中提取的空間線索的條件限制來一定程度上緩解。像是上方的例子。這類型的工具有像是ControlNet

那什麼是ControlNet呢?接下來我們來詳細講講。

ControlNet

ControlNet 是一種擴展工具，用於提高穩定擴散模型的功能。它允許模型在處理圖像時考慮更多的資料，像是深度圖（可以測量物體距離的圖像）、OpenPose骨架（人體動作的骨架圖）、或線稿（基本的輪廓繪圖）。

ControlNet 模型本質上是對StableDiffusion模型中去噪UNet的編碼器進行了特殊調整。這意味著它可以和原來的穩定擴散模型配合使用，增強其性能。

具體怎麼運作的呢?

（1）圖像特徵首先被一個預處理器提取出來（2）通過一個專門設計的編碼器進行編碼（2）編碼透過ControlNet進一步處理，最終和圖像的潛在特徵（這些特徵代表了圖像的基本資訊和細節）結合。

這個結合的過程有助於在去噪過程中更好地控制圖像的品和細節。

📌模型該如何訓練呢?

🐌從頭開始訓練

模型從零開始訓練，不依賴任何預訓練的模型。這種方法可以讓模型完全適應特定的影片數據集特點，但訓練過程可能需要較長時間和更大的數據量。

🐌基於預訓練圖像模型的訓練

這種策略利用已經訓練好的圖像生成模型作為基礎，然後在此基礎上進行微調以適應影片數據。這可以加快訓練速度並提高模型的穩定性，因為模型不需要從零開始學習所有特徵。

🐌結合影片和圖像數據的訓練

在這種方法中，模型同時使用影片和圖像數據進行訓練。這允許模型學習更多的視覺概念和文本關聯，並改善對視頻內容的理解和生成。

🐌時間上的條件約束

重點在於讓模型學習如何處理和生成在時間上連貫的影片。在實際操作中，這意味著在訓練模型時，會給模型展示一系列連續的影片幀（就像一連串的照片一樣）。模型通過這些連續幀學習視頻中物體或場景如何隨時間變化，比如一個人如何從走路過渡到跑步，或者一朵雲如何在風中逐漸變形。

這樣做的好處是，當模型生成新的影片時，它能夠創造出在時間上更加自然和流暢的畫面。這就像是讓模型不僅知道每一幀應該顯示什麼，還要知道這些幀是如何連接起來的。

🐌標籤和文本提示的使用

通過明確的說明來增強模型對影片內容理解的方法。這種訓練方法使模型能夠學習特定的文本提示與視頻內容之間的關聯。當模型在未來生成影片時，它可以更準確地根據用戶的文本指令創造相應的內容。

📌影像資料集來源

🐌影片資料集

WebVid-10M (2021)

這是一個大型數據集，包括從網絡收集的1070萬個影片剪輯，總時長約為52,000小時。這些視頻都配有HTML Alt-text，以方便視障用戶使用。這個數據集因其內容的多樣性和視頻的高解析度而特別有用。

HD-Villa-100M (2022)

包含從YouTube提取的超過1億個短影音剪輯，總時長約為371,000小時。每個剪輯都是高清的（1280×720像素）並配有自動文本轉錄，使這個數據集非常適合訓練生成式視頻模型

Kinetics-600 (2018)

包含YouTube上的500,000個短影音剪輯，展示600種不同的人類動作。每個影片大約10秒鐘，為專注於人類活動的模型提供了豐富的動作特定內容。

UCF101 (2012)

包含來自YouTube的超過13,000個影像剪輯，總時長為27小時，每個剪輯持續約7秒。此數據集將影像分類為101種動作類別，如運動和演奏樂器，是動作識別訓練的主要數據集。

MSR-VTT (2016)

包括總時長為41小時的10,000個影像剪輯，這些影像來自於超過7,000個不同的視頻。這些剪輯由人工用短文本描述標註，使得該數據集對於文本到影像的應用非常有價值。

Sky Time-lapse (2018)

包含在各種條件下拍攝的天空的時間推移剪輯，適用於研究如雲層運動等複雜運動模式的再現。

Tai-Chi-HD (2019)

包含來自280個太極YouTube視頻的超過3,000個影片，適用於研究運動和預測武術及類似活動中的動作。

TikTok Dataset (2022)

專注於舞蹈，包含約350個TikTok舞蹈挑戰影片，每個影片持續10到15秒。該數據集中的影片捕捉了個體表演的舞蹈動作，展示了適度的運動而無明顯的運動模糊。

🐌圖片資料集

ImageNet (2015)

ImageNet是為ImageNet大規模視覺識別挑戰而開發的數據集，該挑戰於2010年至2017年間每年舉行。自2012年起，此數據集被用於主要的圖像分類任務。ImageNet-21k包含超過1400萬張圖片，這些圖片由人工標記了一個物體類別標籤，總共有20,000個不同的物體類別，這些類別按照WordNet的結構進行層次性組織。ImageNet-1k是這個數據集的一個子集，用於ImageNet競賽本身，包含超過100萬張圖片，每張圖片都有一個物體類別標籤和相應的邊界框。

MS-COCO (2014)

最初開發為物體定位模型的基準數據集。它包含超過300,000張圖片，這些圖片包含91個不同類別的日常物體。每個物體實例都被標記了一個分割掩模和相應的類別標籤。總共大約有250萬個物體實例。

LAION-5B (2022)

一個非常大的公共收藏，包含5.58億個在網上找到的文本-圖像對。這些對通過預訓練的CLIP模型進行編碼，並篩選出餘弦相似度低的對。用於訓練圖像或視頻模型的通常是包含英文標題的LAION-5B的子集，稱為LAION-2B，包含2.32億個文本-圖像對。此外，基於自動分類提供了不適合工作場所（NSFW）、有水印或有毒內容的標籤。LAION-5B數據集的策劃水平相對較低，但其龐大的規模對於訓練大型圖像和視頻模型非常有價值。

📌參考資料

https://arxiv.org/abs/2405.03150

3會員

10內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

留言0

查看全部

發表第一個留言支持創作者！

仁和的論文整理的其他內容

AI影像論文(05)：StableDiffusion非對稱性VQGAN

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構，並提出了一種新的非對稱式VQGAN，具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。

#論文 #AI #資料科學

AI影像論文(04)：DDPMs (Denoising Diffusion Probabilistic Models)

DDPM是最近備受矚目的影像生成模型，本文探討了DDPM中的擴散與降噪過程，以及訓練和採樣演算法。透過高斯分佈的噪音添加和去除，DDPM能夠生成無條件CIFAR10數據集和256x256的LSUN數據集上高質量的樣本圖片。詳細瞭解DDPM的模型架構和訓練原理，請閱讀完整文章。

#模型 #噪音 #擴散

財經數據論文(01)：中國盤中逐筆成交資料之可預測性

本研究使用了盤中逐筆成交資料（Tick-by-tick Data）來進行股票價格的預測，並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明，大多數股票的未來三秒價格可以在少於22個狀態中找到，顯示了交易價格的低不確定性。此外，研究還發現波動性更大和價格更高的股票更難以準確預測。

#數據 #模型 #股票

AI影像論文(03)：U-Net 論文筆記整理

U-Net演算法架構解析，首次介紹了U-Net的設計，架構，以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層，以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。

#路徑 #模型 #論文

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

本文章介紹了ControlCom影像合成模型的技術與架構，以及其與其他方法的比較。模型具有可控的圖像合成能力，並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構，以及數據準備和結果與結論。

#模型 #影像 #背景

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

本文介紹了影像合成任務及其歷史解決方案，包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法，並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。

#影像 #AI #論文

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

沈重宗的沙龍

2024/02/17

OpenAI最新推出的「Sora」是一款文本生成影像的AI模型，只要輸入幾句簡單的文字描述，就能自動生成出影像

OpenAI最新推出的「Sora」是一款文本生成影像的AI模型，只要輸入幾句簡單的文字描述，就能自動生成出影像，影片內容可以包含多名角色，搭配特定的動態場景，且影片長度最高可達60秒，同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫，功能十分強大。目前Sora還沒有開放給大眾使

ChoozSEO

2024/01/24

生成式AI影像：開啟人工智慧新紀元

人工智慧（AI）的發展日新月異，其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能，更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用，包括其概念、原理、發展趨勢，以及一些嶄新的生成式AI公司和軟體。

#ChoozSEO #SEO #seo

訊息流鬼才的沙龍

2023/11/27

教學 AI 即時生成影像本地部屬Krea AI平替版

好玩的來了，AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。今天教你怎麼用這個工具以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link

#AI繪圖 #生成式AI #整合

男子漢聊AI的沙龍

2023/10/17

【AI工具分享】Midjourney 的AI 影像提示擴展「Image Prompter」

Image Prompter 是一款用於Midjourney 和AI 繪畫的AI 影像提示擴充。它透過點擊以下方式產生提示，使得生成過程更加直覺和簡單：透過範例圖像點擊生成；將提示按主題、風格和參數分類；提供了大量的預設提示。

#AI工具推薦

男子漢聊AI的沙龍

2023/10/17

【AI工具分享】使用AI 技術進行反向影像搜尋「AI Reverse Image Search」

近日，我們推出了全新的AI 反向影像搜尋功能，為用戶提供更準確的搜尋結果。與其他僅能辨識表面級模式和顏色的圖庫技術不同，我們的反向影像搜尋利用AI 技術來理解影像背後的上下文，從而提供更準確的搜尋結果。快來試試看，告訴我們您的體驗！

#AI工具推薦

德意志黑眼圈

2023/10/06

微軟Bing影像建立工具，免費快速AI繪圖

Microsoft Bing影像建立工具已經推出一段時間，之前看到不少實測文章，雖然可調整選項不多，應該說是幾乎沒有，但是產生的圖片品質不錯，也有1024*1024的解析度。這次來試用看看，用中文描述的產出結果，還不錯!

#Bing #微軟 #AI繪圖

輕煙跟你聊電影

2023/01/05

AI變變變系列(二)花、葉與公園長椅影像重疊創作的秋光奏鳴曲。

融合了花、葉與公園長椅，以「秋天的記憶」為題的八張影像重疊創作作品，透過美圖秀秀APP 「AI 繪畫藝術」，會蛻變出怎樣風格的秋光奏鳴曲?

輕煙跟你聊電影

2022/12/21

玩轉你的影像 --- 美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成 3-3

透過「AI 繪畫藝術 --- 多種畫風一鍵生成」免費測試版，美濃湖的橋樑、遠山、湖，美濃湖的橋樑、遠山、湖面，樹林都有了不同的風貌，連人物造型跟拿的包包都有了整套的搭配變化，最有趣的是附近的檳榔樹與遠山，也變成了聖誕樹林，連遠處的平房也有了不同的建築形式。

輕煙跟你聊電影

2022/12/19

玩轉你的影像 --- 美圖秀秀APP 「AI 繪畫藝術」多種畫風一鍵生成 3-2

透過美圖秀秀APP「AI 繪畫藝術」測試版，你會發現龍虎塔的塔，你會發現龍虎塔的塔型，變得更古色古香，有些還幻化成了日本建築風格，塔前的石橋被東方風格的街頭古燈所取代，潭前的荷花池全轉換成荷花池全轉換成了日式的庭園與石階，與西式的建築與路燈，上面還被白雪覆蓋著，連塔邊的樹種，天際的背景也有了轉換，東

輕煙跟你聊電影

2022/12/19