付費限定

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

更新於 發佈於 閱讀時間約 18 分鐘

近日(2024/2月中) OpenAI 的 SORA引起大家廣泛的討論與注意,其底層架構來自於DiT (Diffusion Transformer),但其實這個領域的競爭對手還不少,這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,兼顧生成品質與生成速度,讓我們一起來看看Google與卡內基美濃大學Yu同學 (原中國北京大學高材生)團隊針對影片生成領域提出了那些SoTA見解。

生成影片技術的本質就是一種資料壓縮,把影片中的每時每刻,每張瞬間的圖片,經由模型映射成如同文字那樣的Token向量,之後就能用LM語言模型相關的技術,把類似的影片藉由Token的組合,經過反向生成 or Decode出來。神經網路能夠用很廉價的方式抽取黑格爾小邏輯裡面所提到的本質,這本質往往具有空間不變性,時間不變性,概念不變性,可以在不同的觸發條件下,像積木一樣,重新做各種排列組合以組成萬物。讓我們抱著期待的心情,看看MAGVIT架構能為我們帶來哪些驚喜應用潛能與突破。


把影片的片段映射成一維向量的Tokens,後續可以用類似生成文字查字典的方式來生成影像片段。

把影片的片段映射成一維向量的Tokens,後續可以用類似生成文字查字典的方式來生成影像片段。


MAGVIT令人震驚的突破:

許多人很納悶,為何傳統編解碼生成方式會不敵擴散迭代模型,MAGVIT用一系列架構設計,與後續的改良,得到能夠打敗所有擴散模型的生成結果,證明了先前的Tokenizer的Encoder Model理解影像的程度不到位,導致生成結果無法與擴散模型匹敵,於是,論文作者設計了獨特的Mask-LM流程,在改善生成結果的同時,還能多用途使用。

如下圖所示,可以做Frame Prediction (FP),Frame Interpolation (FI,生成動畫或是遊戲補幀);Central Outpainting (OPC) / Vertical Outpainting (OPV), Horizontal Outpainting (OPH), Dynamic Outpainting (OPD)可以用於相機防手震,影片後製;Central Inpainting (IPC), Dynamic In painting (IPD) 可以用於影片後製;Class-conditional Generation (CG), Class conditional Frame Prediction (CFP),可以根據分鏡圖/文字Prompt來生成各種新的動畫。

有了這些工具,一個影片工作者就能搞定原本需要一整個特效/動畫團隊才能做的事情,只要能好好的Leverage這些工具,要成立一人影業/電影/動畫公司,不再是遙不可及的夢想

有了這些工具,一個影片工作者就能搞定原本需要一整個特效/動畫團隊才能做的事情,只要能好好的Leverage這些工具,要成立一人影業/電影/動畫公司,不再是遙不可及的夢想

MAGVIT一推出便驚艷世人,兼具多種生成模式彈性與達成極高的生成效率,火爆整個AI生成圈。

MAGVIT一推出便驚艷世人,兼具多種生成模式彈性與達成極高的生成效率,火爆整個AI生成圈。


MASK-LM首先會產生一組固定的MASK框架,根據想要生成的任務(初始條件)把輸入影像填入,然後經由COMMIT Masking的步驟,一步一步將原本遮罩中的影像逐漸生成,經過多次迭代,便能完成上述所有應用目標的作業。訓練的時候,會有Scheduler來逐漸放開Mask,這種過程會被Model利用Lmask (Objective loss)學起來,這樣一來在Inference的時候就能夠自動逐步地把影像生成出來,這種手法值得我們的學習。

raw-image


生成影像需要套用COnditional Masked Modeling by Interior Tokens (COMIT)演算法,如下所示,先針對輸入進行編碼產生z(Latent),根據S/S*的先驗決定Mask要被替換成Conditional Token / 維持Mask / 維持Tatget Token (輸出結果),要得到輸出結果,除了原有已經有的輸入Token以外,都要經過MASK -> Condictional Token -> Target Token的過程。temperature T參數在演算法裡面巧妙的控制Condictional Token的迭代次數,Temperature越高,能夠激發模型的創造能力,因為它會基於較多的假設來生成影像結果,總體來看,算法設計得十分巧妙。

COMMIT 算法 Pseudo-code 部分

COMMIT 算法 Pseudo-code 部分

COMMIT 與傳統生成圖片 MTM生成方式比較

COMMIT 與傳統生成圖片 MTM生成方式比較


如下圖所示,這種生成Token的方式相對於完全的Auto-regression (AR-LM)方式,比較適合用在生成影片/圖片上面,圖片比文字多了一個維度,無論照哪一種Scan的方式逐步生成,都會導致大量的Auto-Regression損失,反之,藉由學習Mask解開與生成的方式,可以讓相對比較可信的Token先浮出檯面,然後讓其他區塊參考。重點是這整個生成過程,有經過LmaskLrefine & Lrecons 損失函數,共同發揮,進行調整過,整體影片生成的準確度註定會比AR-LM方式還要來得高。


ImageNet 的 Pretrain,後續主要訓練針對三個Loss同時進行收斂,確保能夠學會如何解Mask推測逐步生成。

ImageNet 的 Pretrain,後續主要訓練針對三個Loss同時進行收斂,確保能夠學會如何解Mask推測逐步生成。


MAGVIT-V2改良部分:

  • LFQ

神奇的無查找量化(Look-up Free Quantization)方法,傳統的VQGAN增加詞彙量以後生成結果反而變差,本篇作者把這些詞彙從d維(d > 0) 降到0維,化成一個整數集合,利用公式的方式來產生Output Quantized Token的每一個維度,驚奇的發現這樣可以獲得大量增加詞彙量的好處,而且還無須查找(大範圍從中找出最貼近的詞彙)。而Token的量化表達也有助於減少Token容量,表達更加泛化,也能和普通文字Token (也是離散),混在一起使用,完成各種多模態應用在Token表達的大一統。

raw-image
  • Causal-3D CNN

作者用UCF101資料集訓練,實驗各種架構,發現Causal-3D CNN架構表現突出,Transformer對於不同3D Video Tokens之間的關係理解能力,沒有想像中得好。

  • Change Downsamplers from average pooling into strided convolutions to leverage learned kernels

Down Sampling通常會先使用average or max pooling,來試驗效果(因為計算量 小),然後嘗試用strided convolutions,看看效果能否有提升。

以行動支持創作者!付費即可解鎖
本篇內容共 7374 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
留言分享你的想法!
avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
2024/02/04
Google Research 在2024年給出了令人滿意的新年禮物,這篇論文內的方法,若持續發展下去,可望顛覆整個影音創作產業,未來製作生動的影音動畫,不再是令人頭痛與耗費心力的一件事情,是不是很酷,讓我們一起看看到底是如何做到的。
Thumbnail
2024/02/04
Google Research 在2024年給出了令人滿意的新年禮物,這篇論文內的方法,若持續發展下去,可望顛覆整個影音創作產業,未來製作生動的影音動畫,不再是令人頭痛與耗費心力的一件事情,是不是很酷,讓我們一起看看到底是如何做到的。
Thumbnail
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
除了 Luma DreamMachine 以外,如果想用文字或照片自動生成影片的話,還有其他選擇嗎?可以試試 Vidu AI 生成式影片服務,一起了解如何使用 Vidu 及進階技巧,輕鬆製作二次元或東方臉孔的 AI 影片!Vocus 網友專屬避免踩坑資訊在最後一段。
Thumbnail
除了 Luma DreamMachine 以外,如果想用文字或照片自動生成影片的話,還有其他選擇嗎?可以試試 Vidu AI 生成式影片服務,一起了解如何使用 Vidu 及進階技巧,輕鬆製作二次元或東方臉孔的 AI 影片!Vocus 網友專屬避免踩坑資訊在最後一段。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News