付費限定

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

閱讀時間約 18 分鐘

近日(2024/2月中) OpenAI 的 SORA引起大家廣泛的討論與注意,其底層架構來自於DiT (Diffusion Transformer),但其實這個領域的競爭對手還不少,這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,兼顧生成品質與生成速度,讓我們一起來看看Google與卡內基美濃大學Yu同學 (原中國北京大學高材生)團隊針對影片生成領域提出了那些SoTA見解。

生成影片技術的本質就是一種資料壓縮,把影片中的每時每刻,每張瞬間的圖片,經由模型映射成如同文字那樣的Token向量,之後就能用LM語言模型相關的技術,把類似的影片藉由Token的組合,經過反向生成 or Decode出來。神經網路能夠用很廉價的方式抽取黑格爾小邏輯裡面所提到的本質,這本質往往具有空間不變性,時間不變性,概念不變性,可以在不同的觸發條件下,像積木一樣,重新做各種排列組合以組成萬物。讓我們抱著期待的心情,看看MAGVIT架構能為我們帶來哪些驚喜應用潛能與突破。


把影片的片段映射成一維向量的Tokens,後續可以用類似生成文字查字典的方式來生成影像片段。

把影片的片段映射成一維向量的Tokens,後續可以用類似生成文字查字典的方式來生成影像片段。


MAGVIT令人震驚的突破:

許多人很納悶,為何傳統編解碼生成方式會不敵擴散迭代模型,MAGVIT用一系列架構設計,與後續的改良,得到能夠打敗所有擴散模型的生成結果,證明了先前的Tokenizer的Encoder Model理解影像的程度不到位,導致生成結果無法與擴散模型匹敵,於是,論文作者設計了獨特的Mask-LM流程,在改善生成結果的同時,還能多用途使用。

如下圖所示,可以做Frame Prediction (FP),Frame Interpolation (FI,生成動畫或是遊戲補幀);Central Outpainting (OPC) / Vertical Outpainting (OPV), Horizontal Outpainting (OPH), Dynamic Outpainting (OPD)可以用於相機防手震,影片後製;Central Inpainting (IPC), Dynamic In painting (IPD) 可以用於影片後製;Class-conditional Generation (CG), Class conditional Frame Prediction (CFP),可以根據分鏡圖/文字Prompt來生成各種新的動畫。

有了這些工具,一個影片工作者就能搞定原本需要一整個特效/動畫團隊才能做的事情,只要能好好的Leverage這些工具,要成立一人影業/電影/動畫公司,不再是遙不可及的夢想

有了這些工具,一個影片工作者就能搞定原本需要一整個特效/動畫團隊才能做的事情,只要能好好的Leverage這些工具,要成立一人影業/電影/動畫公司,不再是遙不可及的夢想

MAGVIT一推出便驚艷世人,兼具多種生成模式彈性與達成極高的生成效率,火爆整個AI生成圈。

MAGVIT一推出便驚艷世人,兼具多種生成模式彈性與達成極高的生成效率,火爆整個AI生成圈。


MASK-LM首先會產生一組固定的MASK框架,根據想要生成的任務(初始條件)把輸入影像填入,然後經由COMMIT Masking的步驟,一步一步將原本遮罩中的影像逐漸生成,經過多次迭代,便能完成上述所有應用目標的作業。訓練的時候,會有Scheduler來逐漸放開Mask,這種過程會被Model利用Lmask (Objective loss)學起來,這樣一來在Inference的時候就能夠自動逐步地把影像生成出來,這種手法值得我們的學習。

raw-image


生成影像需要套用COnditional Masked Modeling by Interior Tokens (COMIT)演算法,如下所示,先針對輸入進行編碼產生z(Latent),根據S/S*的先驗決定Mask要被替換成Conditional Token / 維持Mask / 維持Tatget Token (輸出結果),要得到輸出結果,除了原有已經有的輸入Token以外,都要經過MASK -> Condictional Token -> Target Token的過程。temperature T參數在演算法裡面巧妙的控制Condictional Token的迭代次數,Temperature越高,能夠激發模型的創造能力,因為它會基於較多的假設來生成影像結果,總體來看,算法設計得十分巧妙。

COMMIT 算法 Pseudo-code 部分

COMMIT 算法 Pseudo-code 部分

COMMIT 與傳統生成圖片 MTM生成方式比較

COMMIT 與傳統生成圖片 MTM生成方式比較


如下圖所示,這種生成Token的方式相對於完全的Auto-regression (AR-LM)方式,比較適合用在生成影片/圖片上面,圖片比文字多了一個維度,無論照哪一種Scan的方式逐步生成,都會導致大量的Auto-Regression損失,反之,藉由學習Mask解開與生成的方式,可以讓相對比較可信的Token先浮出檯面,然後讓其他區塊參考。重點是這整個生成過程,有經過LmaskLrefine & Lrecons 損失函數,共同發揮,進行調整過,整體影片生成的準確度註定會比AR-LM方式還要來得高。


ImageNet 的 Pretrain,後續主要訓練針對三個Loss同時進行收斂,確保能夠學會如何解Mask推測逐步生成。

ImageNet 的 Pretrain,後續主要訓練針對三個Loss同時進行收斂,確保能夠學會如何解Mask推測逐步生成。


MAGVIT-V2改良部分:

  • LFQ

神奇的無查找量化(Look-up Free Quantization)方法,傳統的VQGAN增加詞彙量以後生成結果反而變差,本篇作者把這些詞彙從d維(d > 0) 降到0維,化成一個整數集合,利用公式的方式來產生Output Quantized Token的每一個維度,驚奇的發現這樣可以獲得大量增加詞彙量的好處,而且還無須查找(大範圍從中找出最貼近的詞彙)。而Token的量化表達也有助於減少Token容量,表達更加泛化,也能和普通文字Token (也是離散),混在一起使用,完成各種多模態應用在Token表達的大一統。

raw-image
  • Causal-3D CNN

作者用UCF101資料集訓練,實驗各種架構,發現Causal-3D CNN架構表現突出,Transformer對於不同3D Video Tokens之間的關係理解能力,沒有想像中得好。

  • Change Downsamplers from average pooling into strided convolutions to leverage learned kernels

Down Sampling通常會先使用average or max pooling,來試驗效果(因為計算量 小),然後嘗試用strided convolutions,看看效果能否有提升。

以行動支持創作者!付費即可解鎖
本篇內容共 7374 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Google Research 在2024年給出了令人滿意的新年禮物,這篇論文內的方法,若持續發展下去,可望顛覆整個影音創作產業,未來製作生動的影音動畫,不再是令人頭痛與耗費心力的一件事情,是不是很酷,讓我們一起看看到底是如何做到的。
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Google Research 在2024年給出了令人滿意的新年禮物,這篇論文內的方法,若持續發展下去,可望顛覆整個影音創作產業,未來製作生動的影音動畫,不再是令人頭痛與耗費心力的一件事情,是不是很酷,讓我們一起看看到底是如何做到的。
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
被迫戴上面具的我 早已失去了 自己 成為了別人眼中 喜歡的樣子 而我 再也找不到 臉上帶著的 那面具 黑夜降臨 我 永不再入光明 我 看見了事實 我 看見了險惡 我丟失了人性 丟失了夢 失去…得到… 在我眼中 再也 見怪不怪 愚蠢人們等待著日出 相信著希望會到來 愚蠢的人們祈禱著
Thumbnail
太過多的假設,都無法證實。需要證據才能證明所有的所有。 這個實事求是的世界,無心妄想的日子,帶來些許不置可否。 戴著口罩,只看得見眼神的,那靈魂之窗的代表,是最純真的吧? 我們,都想看見全部的樣貌;卻往往會被真實的樣子帶來衝擊。 接受,調整,接受,不斷調整,直到可以聽清楚彼此的頻率。 人跟人之間是這
Thumbnail
♡So I drew the red mask to describe the eager situation,and also say《Thank You》for the medical mask to prevent infection for all of us…💗😁😂
Thumbnail
身為薄荷/藥草重度上癮患者,怎麼可能沒有踩在產品的尖端。
Thumbnail
What's the advantage of wearing a mask apart from warding off viruses?
Thumbnail
      這本書是用幽默的方式來表達口罩的重要性,有中文版、英文版以及有聲書英文版。       中文版:Google Play Books. 這是一本中文有注音的兒童圖畫書,給2歲到9歲的寶貝們,大意是老師守在校門口不給沒戴口罩的進門,很多人異想天開戴了一堆奇形怪狀的口罩入門,有人拿頭髮當口罩
Thumbnail
" Ms. Strong stands in front of the school. She won't let anybody in without a mask. Some people forget wearing their masks. They wear all kinds of st
Thumbnail
從【SHAKE & SHOT-RUBBER BRIGHTENING MASK】產品標示→推論探討其[配方思路] & 何以滿足產品[主訴求]?
Thumbnail
從【Cucumber cooling peel-off face mask】產品標示→推論探討其[配方思路] & 何以滿足產品[主訴求]?
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
被迫戴上面具的我 早已失去了 自己 成為了別人眼中 喜歡的樣子 而我 再也找不到 臉上帶著的 那面具 黑夜降臨 我 永不再入光明 我 看見了事實 我 看見了險惡 我丟失了人性 丟失了夢 失去…得到… 在我眼中 再也 見怪不怪 愚蠢人們等待著日出 相信著希望會到來 愚蠢的人們祈禱著
Thumbnail
太過多的假設,都無法證實。需要證據才能證明所有的所有。 這個實事求是的世界,無心妄想的日子,帶來些許不置可否。 戴著口罩,只看得見眼神的,那靈魂之窗的代表,是最純真的吧? 我們,都想看見全部的樣貌;卻往往會被真實的樣子帶來衝擊。 接受,調整,接受,不斷調整,直到可以聽清楚彼此的頻率。 人跟人之間是這
Thumbnail
♡So I drew the red mask to describe the eager situation,and also say《Thank You》for the medical mask to prevent infection for all of us…💗😁😂
Thumbnail
身為薄荷/藥草重度上癮患者,怎麼可能沒有踩在產品的尖端。
Thumbnail
What's the advantage of wearing a mask apart from warding off viruses?
Thumbnail
      這本書是用幽默的方式來表達口罩的重要性,有中文版、英文版以及有聲書英文版。       中文版:Google Play Books. 這是一本中文有注音的兒童圖畫書,給2歲到9歲的寶貝們,大意是老師守在校門口不給沒戴口罩的進門,很多人異想天開戴了一堆奇形怪狀的口罩入門,有人拿頭髮當口罩
Thumbnail
" Ms. Strong stands in front of the school. She won't let anybody in without a mask. Some people forget wearing their masks. They wear all kinds of st
Thumbnail
從【SHAKE & SHOT-RUBBER BRIGHTENING MASK】產品標示→推論探討其[配方思路] & 何以滿足產品[主訴求]?
Thumbnail
從【Cucumber cooling peel-off face mask】產品標示→推論探討其[配方思路] & 何以滿足產品[主訴求]?