生成式 AI 已經能創作圖片、影片與音樂,但能否直接生成一個可探索、可互動的 3D 世界?Google DeepMind 在 2025 年 8 月 5 日發布的 Genie 3 正是這個方向的重要突破。它不只是視覺內容生成,而是提供了一個能「在世界中行動」的 AI 平台,為遊戲、教育、機器人訓練等領域開啟新可能。

Genie 3: A new frontier for world models
Genie 3 :通用世界模型
Genie 3 是一款通用世界模型(world model),能從純文字提示即時生成可互動的 3D 環境,並以 720p、24fps 的規格保持數分鐘的場景一致性。相比 Genie 2 僅有 10–20 秒、360p 的短片生成能力,Genie 3 實現了可持續互動、可編排事件的重大提升:
Genie 3: A new frontier for world models
自回歸生成的挑戰與突破
Genie 3 採用自回歸生成逐幀產出畫面,必須即時考慮使用者過往行動,並在數秒內更新世界狀態。這對計算效率與模型記憶都是極大挑戰,尤其是當玩家在一分鐘後回到先前位置時,模型仍需呈現一致的場景。
Promptable World Events:互動性的擴展
此功能允許用戶以文字改變環境條件,例如在一片草原中加入熱氣球,或在歷史場景中添加新角色。對訓練 AI 代理而言,這大幅擴展了「假設場景」的覆蓋面,有助於測試 AI 在非預期情況下的反應。
模擬與代理訓練
Genie 3 已與 SIMA 代理結合測試,代理可以在這些世界中完成複合任務,例如從倉庫入口移動到特定物體。長時一致性意味著代理可完成更長序列的行動規劃,這對 AGI 的路線意義重大。
它將如何影響我們的生活與產業?
- 教育:教師可生成歷史場景或科學實驗環境,讓學生沉浸式學習。
- 遊戲:開發者能快速生成互動世界,降低美術與設計成本。
- 機器人與自駕訓練:提供多變的模擬場景,幫助 AI 適應現實世界的不確定性。
TN科技筆記的觀點
- Genie 3 的長時一致性與即時互動性,意味著 AI 世界生成已從「看影片」進入「身歷其境」階段,對遊戲與教育的價值不容忽視。
- 高計算需求可能限制普及,且目前無法精確還原真實地理位置,複雜多代理互動仍是瓶頸。
- 若能結合語音、音效與多代理支援,這類模型不僅會重塑娛樂與學習,更可能成為未來 AI 代理的「虛擬地球」,推進 AGI 研究與應用落地。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!