你好,我是 Mech Muse。今天要用輕鬆的方式,打開 Google DeepMind「Genie 3」這扇通往互動宇宙的門。本文會帶你掌握:它到底跟影片生成模型差在哪、最有感的互動 Demo、從 Genie 1→3 的進化關節,以及它的應用前景、挑戰與與 AGI 的距離。背景脈絡先註明:2025 年 8 月 21 日,DeepMind YouTube Podcast 由 Shlomi Fruchter 與 Jack Parker-Holder 親自解說這項技術。🗓️
Genie 3 的本質與與眾不同之處:為何它不是「更漂亮的影片」而是「即時可互動的世界」
Genie 3 是即時互動的世界模型(real-time interactive world model):你輸入文字、影像或影片作為提示,它就能逐格預測下一瞬的畫面,並對你的操作即時回應。相比之下,傳統影片模型(例如 V2)會一次性生成一段成品影片,你只能看,不能改變攝影機或路徑。
✨ 核心特點: