MAGI-1 大規模的自回歸視頻生成

更新於 發佈於 閱讀時間約 2 分鐘

MAGI-1 是由 SandAI 開發的先進自回歸視頻生成模型,旨在通過自回歸方式預測視頻塊序列來生成高質量視頻。該模型經過訓練,能夠對視頻塊進行去噪,實現因果時間建模並支持流式生成。MAGI-1 在圖像到視頻(I2V)任務中表現卓越,提供高時間一致性與可擴展性,這得益於多項算法創新與專門的基礎設施堆疊。


模型特點


MAGI-1 AI 搭載基於 Transformer 的變分自編碼器(VAE),實現 8 倍空間和 4 倍時間壓縮,從而達到快速解碼時間與競爭力的重建質量。模型採用自回歸去噪算法,以塊為單位生成視頻。每個塊(24幀)整體去噪,當當前塊達到一定去噪水平時,下一個塊的生成便開始。這種管道設計實現了高達四個塊的並行處理,從而高效生成視頻。


MAGI-1 的擴散模型架構基於擴散 Transformer,引入了塊因果注意力、並行注意力塊、QK-Norm 和 GQA 等創新。它在 FFN 中採用三明治規範化、SwiGLU 和 Softcap 調節,以提高大規模訓練效率與穩定性。此外,MAGI-1 運用快捷蒸餾,訓練支持變量推理預算的單一速度基模型,確保高效推理且幾乎不損失保真度。

magi-1

magi-1


模型變體


MAGI-1 提供 24B 和 4.5B 模型的預訓練權重,以及對應的蒸餾和蒸餾+量化模型。24B 模型針對高保真視頻生成進行了優化,而 4.5B 模型適合資源受限的環境。提供蒸餾和量化模型,以實現更快的推理速度。


評估結果


在人類評估中,MAGI-1 在遵循指令和動作質量方面超越了其他開源模型,如 Wan-2.1、Hailuo 和 HunyuanVideo,使其成為封閉源代碼商業模型的有力競爭對手。在物理評估中,MAGI-1 在通過視頻延續預測物理行為方面表現出卓越的精確度,顯著超越現有模型。


應用場景


MAGI-1 適用於內容創作、遊戲開發、電影后期製作和教育等多種應用場景。其“無限視頻擴展”功能能夠無縫延伸視頻內容,結合“秒級時間軸控制”,通過分塊提示實現順滑的場景過渡和精細的剪輯。這一功能滿足了電影製作和敘事的需求。


運行 MAGI-1


MAGI-1 可通過 Docker 或直接從源代碼運行。建議使用 Docker 以便於設置。用戶可以通過修改提供的 run.sh 腳本中的參數來控制輸入和輸出。該模型依據 Apache 許可證 2.0 發布。


總之,MAGI-1 是視頻生成領域的一個重大進步,提供了高質量、可擴展且高效的視頻生成能力。其創新特性和強勁表現使其成為眾多應用場景中的寶貴工具。

留言
avatar-img
留言分享你的想法!
jomefar-avatar-img
2025/04/24
https://acortar.link/hvll8z
Ran Mureed-avatar-img
2025/04/23
https://app.transifex.com/lahorei-pariyan/call-girls-in-karachi-03292178555-hot-sexy-girls-avail-247/dashboard/ https://app.transifex.com/lahorei-pariyan/karachi-escorts-03070433345-high-profile-girls-at-5-star-hotels/dashboard/ https://app.transifex.com/lahorei-pariyan/escorts-in-karachi-03274100048-vip-karachi-female-escorts/dashboard/ https://app.transifex.com/lahorei-pariyan/call-girls-in-multan-03081633338-luxury-escorts-multan/dashboard/ https://app.transifex.com/lahorei-pariyan/multan-call-girls-03274100048-vip-sexy-escorts-call-girls/dashboard/
avatar-img
2025/04/23
https://surl.li/wymxda https://surl.li/ujshyd https://surl.li/vvnblf https://surl.li/cegwnd https://surl.li/gvjvdn https://surl.li/uaeomg https://surl.li/radgcd https://surl.li/mycfyu https://surl.li/fqijvf https://surl.li/agrupb https://surl.li/nlqvnr https://surl.li/juhrja
avatar-img
ReveAI的沙龍
0會員
5內容數
分享最好的 AI 技術
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
AIGC,全名是人工智能生成內容(AI-generated content),指的是使用人工智能技術自動生成的各種數字內容。這些內容可以包括文本、圖像、音樂、視頻、程式碼等等。AIGC利用自然語言處理(NLP)、計算機視覺、機器學習和深度學習等技術來創建和生成這些內容。
Thumbnail
AIGC,全名是人工智能生成內容(AI-generated content),指的是使用人工智能技術自動生成的各種數字內容。這些內容可以包括文本、圖像、音樂、視頻、程式碼等等。AIGC利用自然語言處理(NLP)、計算機視覺、機器學習和深度學習等技術來創建和生成這些內容。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
與其僅從應用面思考AI,不如瞭解其背後的原理。本文章探討生成式AI的發展及應用,包含使用AI生成文章、影片等的原理和技術。透過AI的世界原理記錄,可以達到應用無窮的效果。
Thumbnail
與其僅從應用面思考AI,不如瞭解其背後的原理。本文章探討生成式AI的發展及應用,包含使用AI生成文章、影片等的原理和技術。透過AI的世界原理記錄,可以達到應用無窮的效果。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News