MAGI-1 大規模的自回歸視頻生成

MAGI-1 大規模的自回歸視頻生成

更新於 發佈於 閱讀時間約 3 分鐘

MAGI-1 是由 SandAI 開發的先進自回歸視頻生成模型,旨在通過自回歸方式預測視頻塊序列來生成高質量視頻。該模型經過訓練,能夠對視頻塊進行去噪,實現因果時間建模並支持流式生成。MAGI-1 在圖像到視頻(I2V)任務中表現卓越,提供高時間一致性與可擴展性,這得益於多項算法創新與專門的基礎設施堆疊。


模型特點


MAGI-1 AI 搭載基於 Transformer 的變分自編碼器(VAE),實現 8 倍空間和 4 倍時間壓縮,從而達到快速解碼時間與競爭力的重建質量。模型採用自回歸去噪算法,以塊為單位生成視頻。每個塊(24幀)整體去噪,當當前塊達到一定去噪水平時,下一個塊的生成便開始。這種管道設計實現了高達四個塊的並行處理,從而高效生成視頻。


MAGI-1 的擴散模型架構基於擴散 Transformer,引入了塊因果注意力、並行注意力塊、QK-Norm 和 GQA 等創新。它在 FFN 中採用三明治規範化、SwiGLU 和 Softcap 調節,以提高大規模訓練效率與穩定性。此外,MAGI-1 運用快捷蒸餾,訓練支持變量推理預算的單一速度基模型,確保高效推理且幾乎不損失保真度。

magi-1

magi-1


模型變體


MAGI-1 提供 24B 和 4.5B 模型的預訓練權重,以及對應的蒸餾和蒸餾+量化模型。24B 模型針對高保真視頻生成進行了優化,而 4.5B 模型適合資源受限的環境。提供蒸餾和量化模型,以實現更快的推理速度。


評估結果


在人類評估中,MAGI-1 在遵循指令和動作質量方面超越了其他開源模型,如 Wan-2.1、Hailuo 和 HunyuanVideo,使其成為封閉源代碼商業模型的有力競爭對手。在物理評估中,MAGI-1 在通過視頻延續預測物理行為方面表現出卓越的精確度,顯著超越現有模型。


應用場景


MAGI-1 適用於內容創作、遊戲開發、電影后期製作和教育等多種應用場景。其“無限視頻擴展”功能能夠無縫延伸視頻內容,結合“秒級時間軸控制”,通過分塊提示實現順滑的場景過渡和精細的剪輯。這一功能滿足了電影製作和敘事的需求。


運行 MAGI-1


MAGI-1 可通過 Docker 或直接從源代碼運行。建議使用 Docker 以便於設置。用戶可以通過修改提供的 run.sh 腳本中的參數來控制輸入和輸出。該模型依據 Apache 許可證 2.0 發布。


總之,MAGI-1 是視頻生成領域的一個重大進步,提供了高質量、可擴展且高效的視頻生成能力。其創新特性和強勁表現使其成為眾多應用場景中的寶貴工具。

avatar-img
ReveAI的沙龍
0會員
3內容數
分享最好的 AI 技術
留言
avatar-img
留言分享你的想法!