Google DeepMind 發布 Genie 3:從文字生成可互動 3D 世界的新世代模型

更新 發佈閱讀 4 分鐘

生成式 AI 已經能創作圖片、影片與音樂,但能否直接生成一個可探索、可互動的 3D 世界?Google DeepMind 在 2025 年 8 月 5 日發布的 Genie 3 正是這個方向的重要突破。它不只是視覺內容生成,而是提供了一個能「在世界中行動」的 AI 平台,為遊戲、教育、機器人訓練等領域開啟新可能。

vocus|新世代的創作平台

Genie 3: A new frontier for world models

Genie 3 :通用世界模型

Genie 3 是一款通用世界模型(world model),能從純文字提示即時生成可互動的 3D 環境,並以 720p、24fps 的規格保持數分鐘的場景一致性。相比 Genie 2 僅有 10–20 秒、360p 的短片生成能力,Genie 3 實現了可持續互動、可編排事件的重大提升:

vocus|新世代的創作平台

Genie 3: A new frontier for world models

自回歸生成的挑戰與突破

Genie 3 採用自回歸生成逐幀產出畫面,必須即時考慮使用者過往行動,並在數秒內更新世界狀態。這對計算效率與模型記憶都是極大挑戰,尤其是當玩家在一分鐘後回到先前位置時,模型仍需呈現一致的場景。

Promptable World Events:互動性的擴展

此功能允許用戶以文字改變環境條件,例如在一片草原中加入熱氣球,或在歷史場景中添加新角色。對訓練 AI 代理而言,這大幅擴展了「假設場景」的覆蓋面,有助於測試 AI 在非預期情況下的反應。

模擬與代理訓練

Genie 3 已與 SIMA 代理結合測試,代理可以在這些世界中完成複合任務,例如從倉庫入口移動到特定物體。長時一致性意味著代理可完成更長序列的行動規劃,這對 AGI 的路線意義重大。

它將如何影響我們的生活與產業?

  • 教育:教師可生成歷史場景或科學實驗環境,讓學生沉浸式學習。
  • 遊戲:開發者能快速生成互動世界,降低美術與設計成本。
  • 機器人與自駕訓練:提供多變的模擬場景,幫助 AI 適應現實世界的不確定性。

TN科技筆記的觀點

  • Genie 3 的長時一致性與即時互動性,意味著 AI 世界生成已從「看影片」進入「身歷其境」階段,對遊戲與教育的價值不容忽視。
  • 高計算需求可能限制普及,且目前無法精確還原真實地理位置,複雜多代理互動仍是瓶頸。
  • 若能結合語音、音效與多代理支援,這類模型不僅會重塑娛樂與學習,更可能成為未來 AI 代理的「虛擬地球」,推進 AGI 研究與應用落地。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
72會員
243內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/08/09
2025 年 8 月 7 日,OpenAI 正式發布了萬眾矚目的 GPT-5。這不只是一次例行的更新,而是 OpenAI 宣稱的「我們迄今最聰明、最快、也最有用」的 AI 系統。執行長 Sam Altman 甚至比喻:如果 GPT-4 像個聰明的大學生,那 GPT-5 就具備了「博士級」的專業能力。
Thumbnail
2025/08/09
2025 年 8 月 7 日,OpenAI 正式發布了萬眾矚目的 GPT-5。這不只是一次例行的更新,而是 OpenAI 宣稱的「我們迄今最聰明、最快、也最有用」的 AI 系統。執行長 Sam Altman 甚至比喻:如果 GPT-4 像個聰明的大學生,那 GPT-5 就具備了「博士級」的專業能力。
Thumbnail
2025/08/07
身為 OpenAI 主要競爭對手之一的 Anthropic,在 2025 年 8 月 6 日也發布了他們最新的模型更新:Claude Opus 4.1。這次的 4.1 版升級的重點鎖定在對專業人士重要的領域:程式碼撰寫、AI 代理人任務(Agentic Tasks)和深度推理。
Thumbnail
2025/08/07
身為 OpenAI 主要競爭對手之一的 Anthropic,在 2025 年 8 月 6 日也發布了他們最新的模型更新:Claude Opus 4.1。這次的 4.1 版升級的重點鎖定在對專業人士重要的領域:程式碼撰寫、AI 代理人任務(Agentic Tasks)和深度推理。
Thumbnail
2025/08/06
2025 年 8 月 5 日,OpenAI 終於推出 gpt-oss-120b 和 gpt-oss-20b 兩款「開放權重 (Open-Weight)」模型。這是自 2019 年的 GPT-2 以來,OpenAI 首次重返開源領域。更關鍵的是,這次的 gpt-oss 模型不僅性能強悍,甚至能在高階
Thumbnail
2025/08/06
2025 年 8 月 5 日,OpenAI 終於推出 gpt-oss-120b 和 gpt-oss-20b 兩款「開放權重 (Open-Weight)」模型。這是自 2019 年的 GPT-2 以來,OpenAI 首次重返開源領域。更關鍵的是,這次的 gpt-oss 模型不僅性能強悍,甚至能在高階
Thumbnail
看更多
你可能也想看
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
隨著ChatGPT問世以來,AI持續在不同領域上發揮作用。虛擬人已能代理人類完成特定任務,是新興科技從工具擴展至落地應用服務的關鍵產物。 透過觀察AI如何賦能Web3的發展,以及觀測各種國際創新應用案例,請參加此免費研討會,了解「虛擬人應用發展趨勢」和「從AI賦能Web3新興應用看發展趨勢」二個議題
Thumbnail
隨著ChatGPT問世以來,AI持續在不同領域上發揮作用。虛擬人已能代理人類完成特定任務,是新興科技從工具擴展至落地應用服務的關鍵產物。 透過觀察AI如何賦能Web3的發展,以及觀測各種國際創新應用案例,請參加此免費研討會,了解「虛擬人應用發展趨勢」和「從AI賦能Web3新興應用看發展趨勢」二個議題
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
AI技術的發展如日中天,但也引發了許多道德與創作者權益的議題。從初期到現在的變化,AI的發展對創作者而言是一大挑戰,無論是哪種AI使用者,AI的出現,不代表我們要放棄思考。
Thumbnail
AI技術的發展如日中天,但也引發了許多道德與創作者權益的議題。從初期到現在的變化,AI的發展對創作者而言是一大挑戰,無論是哪種AI使用者,AI的出現,不代表我們要放棄思考。
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
2023年是AI元年,其實AI還分成不同類別,不過對我們工作和教育影響最大的AI類型是生成式AI,就像各位 Google 在2023年第四季推出了一系列共7堂「生成式 AI」課程,免費喔! 這7堂 Google 免費課程包括: • Introduction to Generative AI
Thumbnail
2023年是AI元年,其實AI還分成不同類別,不過對我們工作和教育影響最大的AI類型是生成式AI,就像各位 Google 在2023年第四季推出了一系列共7堂「生成式 AI」課程,免費喔! 這7堂 Google 免費課程包括: • Introduction to Generative AI
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News