​Google 推出突破性世界模型 Genie 3:由文字即時生成互動式虛擬世界

更新於 發佈於 閱讀時間約 4 分鐘

Google DeepMind 近期(2025-8月)發表了其最新的生成式人工智慧模型「Genie 3」,標誌著在創造可互動數位世界方面的一大躍進。這個被稱為「世界模型」的AI,能夠僅僅透過文字提示,即時生成出可供使用者探索與互動的3D虛擬環境,為遊戲開發、模擬訓練與未來AI代理的發展開啟了全新的可能性。

​Genie 3 最令人矚目的能力在於其能夠以每秒24幀、720p的解析度,即時生成動態且具備一定邏輯一致性的虛擬場景。與其前代模型相比,Genie 3 在生成世界的穩定性與互動時長上都有了顯著提升,能夠維持數分鐘的連續體驗而不出現明顯的崩潰或不連貫。

​主要功能與技術突破

  • 即時文字生成世界: 使用者僅需輸入簡單的文字描述,例如「一個有著潺潺流水小溪的魔法森林」或「夜晚霓虹閃爍的賽博龐克城市街道」,Genie 3 就能夠即時建構出相應的3D環境。
  • 動態互動性: 生成的世界並非靜態的圖片或影片,使用者可以在其中自由移動與探索。更進一步,Genie 3 支援透過文字指令觸發「世界事件」,例如輸入「天氣變為下雨」或「在草地上出現一隻棕熊」,模型便會即時對世界進行相應的調整。
  • 提升的視覺與時間一致性: Genie 3 在技術上採用了自回歸模型架構,並結合了Google Veo 3(影片生成模型)的元素,使其能夠在生成每一幀畫面時參考先前的內容,從而確保了物體、場景與動作在一段時間內的邏輯連貫性。即使使用者將視角移開再移回,場景中的細節也能大致保持一致。

​潛在應用領域

​Genie 3 的出現預計將對多個領域產生深遠影響:

  • 遊戲開發: 大幅降低創建大型開放世界遊戲的門檻與成本。獨立開發者或小型團隊將有潛力創造出以往需要龐大團隊耗費數年才能完成的宏大世界。
  • AI代理訓練: 為通用人工智慧(AGI)的發展提供了理想的試驗場。AI代理(如Google的SIMA)可以在Genie 3生成的無數模擬環境中進行訓練,學習與物理世界互動、規劃並執行複雜任務,而無需承擔現實世界中的風險。
  • 教育與模擬: 在教育領域,學生可以「走進」歷史場景或科學概念中進行沉浸式學習。在專業訓練上,如消防員或自動駕駛系統,可以在極低成本下,於安全的虛擬環境中進行各種緊急情況的應對演練。
  • 創意與原型設計: 設計師與藝術家可以快速將腦中的想像具象化,生成可互動的場景原型,加速創意迭代的過程。

​目前的限制與未來展望

​儘管Genie 3展現了驚人的能力,但Google DeepMind也坦承目前模型仍存在一些限制。例如,AI代理可執行的自主動作仍然有限,對於多個AI代理間的複雜互動模擬仍是挑戰。此外,生成世界的互動時長目前僅限於數分鐘,且尚無法精確重現真實世界的地理位置。

​目前,Genie 3 仍處於研究預覽階段,僅開放給少數的學術研究者與創作者進行測試。Google表示,這項技術的推出將採取負責任的態度,逐步擴大測試範圍。

​總Genie 3 的發表不僅是生成式AI技術的一大步,更為我們描繪了一個AI能夠創造和模擬「現實」的未來藍圖。隨著技術的持續演進,由AI即時生成的互動世界,或許將在不遠的將來,深刻地改變我們的娛樂、學習與工作方式。

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
82內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/12
Google Gemini CLI 不僅功能強大,而且還以開源的方式回饋給開發者社群。這讓所有人都能夠檢視其內部運作、貢獻程式碼,並驗證其安全性。
2025/08/12
Google Gemini CLI 不僅功能強大,而且還以開源的方式回饋給開發者社群。這讓所有人都能夠檢視其內部運作、貢獻程式碼,並驗證其安全性。
2025/08/12
其核心並非源於單一文獻,而是一個結合多種理論與技術的綜合性應用。以下是其背後主要的文獻與原理: 1. ReAct (Reason and Act) 框架 這是 Gemini CLI 運作的核心思想,可以說是最直接的理論基礎。
2025/08/12
其核心並非源於單一文獻,而是一個結合多種理論與技術的綜合性應用。以下是其背後主要的文獻與原理: 1. ReAct (Reason and Act) 框架 這是 Gemini CLI 運作的核心思想,可以說是最直接的理論基礎。
2025/08/12
這個流程並非由單一人物或機構「首次」提出,而是在機器學習領域中,由「主動式學習」(Active Learning)這個概念逐步演變、並與「專家標註」實務結合的成果。 然而,近期將此流程大規模應用並提出一套具體、可擴展方法的,是 Google Ads 團隊。
2025/08/12
這個流程並非由單一人物或機構「首次」提出,而是在機器學習領域中,由「主動式學習」(Active Learning)這個概念逐步演變、並與「專家標註」實務結合的成果。 然而,近期將此流程大規模應用並提出一套具體、可擴展方法的,是 Google Ads 團隊。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
隨著ChatGPT問世以來,AI持續在不同領域上發揮作用。虛擬人已能代理人類完成特定任務,是新興科技從工具擴展至落地應用服務的關鍵產物。 透過觀察AI如何賦能Web3的發展,以及觀測各種國際創新應用案例,請參加此免費研討會,了解「虛擬人應用發展趨勢」和「從AI賦能Web3新興應用看發展趨勢」二個議題
Thumbnail
隨著ChatGPT問世以來,AI持續在不同領域上發揮作用。虛擬人已能代理人類完成特定任務,是新興科技從工具擴展至落地應用服務的關鍵產物。 透過觀察AI如何賦能Web3的發展,以及觀測各種國際創新應用案例,請參加此免費研討會,了解「虛擬人應用發展趨勢」和「從AI賦能Web3新興應用看發展趨勢」二個議題
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News