付費限定

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

更新於 2025/02/27發佈於 2024/02/28閱讀時間約 18 分鐘

近日(2024/2月中) OpenAI 的 SORA引起大家廣泛的討論與注意，其底層架構來自於DiT (Diffusion Transformer)，但其實這個領域的競爭對手還不少，這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，兼顧生成品質與生成速度，讓我們一起來看看Google與卡內基美濃大學Yu同學 (原中國北京大學高材生)團隊針對影片生成領域提出了那些SoTA見解。

生成影片技術的本質就是一種資料壓縮，把影片中的每時每刻，每張瞬間的圖片，經由模型映射成如同文字那樣的Token向量，之後就能用LM語言模型相關的技術，把類似的影片藉由Token的組合，經過反向生成 or Decode出來。神經網路能夠用很廉價的方式抽取黑格爾小邏輯裡面所提到的本質，這本質往往具有空間不變性，時間不變性，概念不變性，可以在不同的觸發條件下，像積木一樣，重新做各種排列組合以組成萬物。讓我們抱著期待的心情，看看MAGVIT架構能為我們帶來哪些驚喜應用潛能與突破。

把影片的片段映射成一維向量的Tokens，後續可以用類似生成文字查字典的方式來生成影像片段。

MAGVIT令人震驚的突破:

許多人很納悶，為何傳統編解碼生成方式會不敵擴散迭代模型，MAGVIT用一系列架構設計，與後續的改良，得到能夠打敗所有擴散模型的生成結果，證明了先前的Tokenizer的Encoder Model理解影像的程度不到位，導致生成結果無法與擴散模型匹敵，於是，論文作者設計了獨特的Mask-LM流程，在改善生成結果的同時，還能多用途使用。

如下圖所示，可以做Frame Prediction (FP)，Frame Interpolation (FI，生成動畫或是遊戲補幀)；Central Outpainting (OPC) / Vertical Outpainting (OPV), Horizontal Outpainting (OPH), Dynamic Outpainting (OPD)可以用於相機防手震，影片後製；Central Inpainting (IPC), Dynamic In painting (IPD) 可以用於影片後製；Class-conditional Generation (CG), Class conditional Frame Prediction (CFP)，可以根據分鏡圖/文字Prompt來生成各種新的動畫。

有了這些工具，一個影片工作者就能搞定原本需要一整個特效/動畫團隊才能做的事情，只要能好好的Leverage這些工具，要成立一人影業/電影/動畫公司，不再是遙不可及的夢想

MAGVIT一推出便驚艷世人，兼具多種生成模式彈性與達成極高的生成效率，火爆整個AI生成圈。

MASK-LM首先會產生一組固定的MASK框架，根據想要生成的任務(初始條件)把輸入影像填入，然後經由COMMIT Masking的步驟，一步一步將原本遮罩中的影像逐漸生成，經過多次迭代，便能完成上述所有應用目標的作業。訓練的時候，會有Scheduler來逐漸放開Mask，這種過程會被Model利用L_mask (Objective loss)學起來，這樣一來在Inference的時候就能夠自動逐步地把影像生成出來，這種手法值得我們的學習。

生成影像需要套用COnditional Masked Modeling by Interior Tokens (COMIT)演算法，如下所示，先針對輸入進行編碼產生z(Latent)，根據S/S*的先驗決定Mask要被替換成Conditional Token / 維持Mask / 維持Tatget Token (輸出結果)，要得到輸出結果，除了原有已經有的輸入Token以外，都要經過MASK -> Condictional Token -> Target Token的過程。temperature T參數在演算法裡面巧妙的控制Condictional Token的迭代次數，Temperature越高，能夠激發模型的創造能力，因為它會基於較多的假設來生成影像結果，總體來看，算法設計得十分巧妙。

COMMIT 算法 Pseudo-code 部分

COMMIT 與傳統生成圖片 MTM生成方式比較

如下圖所示，這種生成Token的方式相對於完全的Auto-regression (AR-LM)方式，比較適合用在生成影片/圖片上面，圖片比文字多了一個維度，無論照哪一種Scan的方式逐步生成，都會導致大量的Auto-Regression損失，反之，藉由學習Mask解開與生成的方式，可以讓相對比較可信的Token先浮出檯面，然後讓其他區塊參考。重點是這整個生成過程，有經過L_mask和L_refine & L_recons 損失函數，共同發揮，進行調整過，整體影片生成的準確度註定會比AR-LM方式還要來得高。

ImageNet 的 Pretrain，後續主要訓練針對三個Loss同時進行收斂，確保能夠學會如何解Mask推測逐步生成。

MAGVIT-V2改良部分:

神奇的無查找量化(Look-up Free Quantization)方法，傳統的VQGAN增加詞彙量以後生成結果反而變差，本篇作者把這些詞彙從d維(d > 0) 降到0維，化成一個整數集合，利用公式的方式來產生Output Quantized Token的每一個維度，驚奇的發現這樣可以獲得大量增加詞彙量的好處，而且還無須查找(大範圍從中找出最貼近的詞彙)。而Token的量化表達也有助於減少Token容量，表達更加泛化，也能和普通文字Token (也是離散)，混在一起使用，完成各種多模態應用在Token表達的大一統。

Causal-3D CNN

作者用UCF101資料集訓練，實驗各種架構，發現Causal-3D CNN架構表現突出，Transformer對於不同3D Video Tokens之間的關係理解能力，沒有想像中得好。

Change Downsamplers from average pooling into strided convolutions to leverage learned kernels

Down Sampling通常會先使用average or max pooling，來試驗效果(因為計算量小)，然後嘗試用strided convolutions，看看效果能否有提升。

以行動支持創作者！付費即可解鎖

本篇內容共 7374 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

留言

留言分享你的想法！

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

無限智慧學院的沙龍的其他內容

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

2024/02/04

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

Google Research 在2024年給出了令人滿意的新年禮物，這篇論文內的方法，若持續發展下去，可望顛覆整個影音創作產業，未來製作生動的影音動畫，不再是令人頭痛與耗費心力的一件事情，是不是很酷，讓我們一起看看到底是如何做到的。

2024/02/04

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

看更多

你可能也想看

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

Vidu 完整教學：可使用中文指令的快速免費生成 AI 動態影片服務

除了 Luma DreamMachine 以外，如果想用文字或照片自動生成影片的話，還有其他選擇嗎？可以試試 Vidu AI 生成式影片服務，一起了解如何使用 Vidu 及進階技巧，輕鬆製作二次元或東方臉孔的 AI 影片！Vocus 網友專屬避免踩坑資訊在最後一段。

#ai#VIDU#生成式

2024/07/31

吹著魔笛的浮士德俱樂部

Vidu 完整教學：可使用中文指令的快速免費生成 AI 動態影片服務

#ai#VIDU#生成式

2024/07/31

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的VAE模型其中的解碼器，來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇輸入產生的隨機雜訊，輸入VAE的解碼器後，生成的圖片

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

#深度學習#VAE模型#生成圖片

2024/07/25

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

VQGAN是一種基於GAN(生成對抗式網路)的生成式模型，可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構，並提出了一種新的非對稱式VQGAN，具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。

#論文#AI#資料科學

2024/07/04

仁和的論文整理

AI影像論文(05)：StableDiffusion非對稱性VQGAN

#論文#AI#資料科學

2024/07/04

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

本文介紹了影像合成任務及其歷史解決方案，包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法，並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。

#影像#AI#論文

2024/07/03

仁和的論文整理

AI影像論文(01)：影像合成是如何實現的?Making Images Real Again: A Comprehens

#影像#AI#論文

2024/07/03

iFormosa TechWave

AI 超神：解鎖 Stable Diffusion Mov2Mov 套件的無限潛力

Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具，讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹：功能和優點自動化視頻轉換： Mov2Mov 可以自動化視頻到

#AI#生成式AI#AI人工智慧

2024/06/14

iFormosa TechWave

AI 超神：解鎖 Stable Diffusion Mov2Mov 套件的無限潛力

#AI#生成式AI#AI人工智慧

2024/06/14

Frank Plaza

ComfyUI 研究 - 生成影片

這篇要介紹AI生成影片的兩個方式：SVD 跟 AnimateDiff。

#comfyui#stablediffusion#AI繪圖

2024/02/29

Frank Plaza

ComfyUI 研究 - 生成影片

這篇要介紹AI生成影片的兩個方式：SVD 跟 AnimateDiff。

#comfyui#stablediffusion#AI繪圖

2024/02/29

無限智慧學院的沙龍

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

#MAGVIT#MAGVITv2#MASKLM

2024/02/28

無限智慧學院的沙龍

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

#MAGVIT#MAGVITv2#MASKLM

2024/02/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News