Google Genie 3 的原理

更新於 發佈於 閱讀時間約 4 分鐘

它的運作方式可以說是一個極度先進的「影片預測」與「互動理解」系統

​簡單來說,您可以將 Genie 3 想像成一個學會了世界運作基本規則的「大腦」。它不是在「播放」一個預先製作好的遊戲或影片,而是在您下達指令的每一瞬間,即時「描繪」出下一幀畫面應該是什麼樣子

​以下是其背後的主要技術原理:

​1. 核心概念:世界模型 (World Model)

​這是一切的基礎。與傳統的圖像或影片生成模型不同,Genie 3 不僅僅是學習像素的排列組合,而是試圖學習一個「世界」內在的物理規律與因果關係

  • 學習對象: 它透過觀看海量的網路影片(尤其是遊戲實況影片)來學習。從這些影片中,它不僅學習「森林看起來是什麼樣子」,更學習「當一個角色『向前走』時,畫面會如何變化」、「物體掉落時會往下」等動態規則。
  • 目標: 建立一個內部的、抽象的數據模型來代表這個虛擬世界。這個模型知道物體之間的關係、可能的互動方式以及時間演進的邏輯。

​2. 技術架構:自回歸模型 (Autoregressive Model)

​這是實現時間連續性的關鍵。「自回歸」的意思是「依賴於自身過去的輸出」

  • 運作方式: 當Genie 3要生成下一幀畫面時,它的輸入不僅僅是您最初的文字提示,還包括它自己剛剛生成的前幾幀畫面。
  • 類比: 這就像寫句子時的「自動補完」。要預測下一個詞,AI會看你已經寫好的整個句子,而不只是一個詞。同理,Genie 3 要「畫」出下一幀,它會看已經「畫」好的前面所有畫面,確保動作是連貫的,而不是突然跳躍。這就是為什麼它的世界能維持數分鐘的邏輯一致性。

​3. 互動的關鍵:潛在動作模型 (Latent Action Model)

​這是實現「可玩性」與「互動」的魔法。當您在生成的世界中進行操作(例如,透過鍵盤或控制器下達「向左走」的指令)時,系統是如何理解並反應的?

  • 動作編碼: Genie 3 並不直接理解「W鍵」或「手把的左搖桿」。它有一個模型能將這些具體的玩家輸入,轉譯成一個抽象的「潛在動作」向量。這個向量代表了在那個虛擬世界中有意義的動作概念,例如「向著攝影機方向移動」、「跳躍」等。
  • 結合預測: 在生成下一幀畫面時,自回歸模型會將三個主要資訊結合起來:
    1. 原始文字提示 (定義了世界的基本樣貌)。
    2. 過去的畫面 (確保時間與空間的連貫性)。
    3. 當前的潛在動作 (決定了畫面該如何因應玩家的互動而改變)。

​總結運作流程:

  1. 輸入提示 (Prompt): 您輸入「一座漂浮在雲端上的古代城堡」。
  2. 初始生成 (Generation): Genie 3 的影片生成部分(類似其兄弟模型 Veo 3)根據提示,創造出這個場景的第一幀畫面。
  3. 進入互動循環 (Interactive Loop - 每秒24次):
    • 接收動作: 系統偵測到您的「向前走」指令。
    • 轉譯動作: 潛在動作模型將指令轉譯成一個代表「前進」的抽象數據。
    • 預測下一幀: 自回歸模型看著「城堡」這個主題、看著前一幀的畫面、再結合「前進」這個動作數據,計算出最合乎邏輯的下一幀畫面應該是什麼樣子(例如,城堡的門變得更近了,周圍的雲朵在移動)。
    • 輸出畫面: 顯示新生成的這一幀。
  4. 持續循環: 這個循環以極高的速度(每秒24次)不斷重複,從而創造出您看到的流暢、即時且可互動的虛擬世界。當您輸入「世界事件」如「天空變成紅色」,這個新提示會被加入到模型預測的依據中,從而改變後續生成的畫面。

​因此,Genie 3 的原理是一種結合了強大影片生成能力、對世界動態規則的深刻理解、以及即時互動指令轉譯的複雜AI系統。它不是在檢索資料,而是在持續不斷地進行「有根據的創作」。

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
82內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/13
Google DeepMind 近期(2025-8月)發表了其最新的生成式人工智慧模型「Genie 3」,標誌著在創造可互動數位世界方面的一大躍進。這個被稱為「世界模型」的AI,能夠僅僅透過文字提示,即時生成出可供使用者探索與互動的3D虛擬環境,為遊戲開發、模擬訓練與未來AI代理的發展開啟了全新的可
2025/08/13
Google DeepMind 近期(2025-8月)發表了其最新的生成式人工智慧模型「Genie 3」,標誌著在創造可互動數位世界方面的一大躍進。這個被稱為「世界模型」的AI,能夠僅僅透過文字提示,即時生成出可供使用者探索與互動的3D虛擬環境,為遊戲開發、模擬訓練與未來AI代理的發展開啟了全新的可
2025/08/12
Google Gemini CLI 不僅功能強大,而且還以開源的方式回饋給開發者社群。這讓所有人都能夠檢視其內部運作、貢獻程式碼,並驗證其安全性。
2025/08/12
Google Gemini CLI 不僅功能強大,而且還以開源的方式回饋給開發者社群。這讓所有人都能夠檢視其內部運作、貢獻程式碼,並驗證其安全性。
2025/08/12
其核心並非源於單一文獻,而是一個結合多種理論與技術的綜合性應用。以下是其背後主要的文獻與原理: 1. ReAct (Reason and Act) 框架 這是 Gemini CLI 運作的核心思想,可以說是最直接的理論基礎。
2025/08/12
其核心並非源於單一文獻,而是一個結合多種理論與技術的綜合性應用。以下是其背後主要的文獻與原理: 1. ReAct (Reason and Act) 框架 這是 Gemini CLI 運作的核心思想,可以說是最直接的理論基礎。
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
今天想分享我怎麼「用 AI 設計一個學習流程」讓我把學過的英文「真的記住,並且用的出來」 這個過程不會碰到複雜的技術,只需結合基本學習原則,還有在ChatGPT用中文下指令的技巧,這樣你以後就可以針對自己想學的英文內容設計客製化的學習材料跟練習過程喔!
Thumbnail
今天想分享我怎麼「用 AI 設計一個學習流程」讓我把學過的英文「真的記住,並且用的出來」 這個過程不會碰到複雜的技術,只需結合基本學習原則,還有在ChatGPT用中文下指令的技巧,這樣你以後就可以針對自己想學的英文內容設計客製化的學習材料跟練習過程喔!
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
你從自動回覆的留言中,串接到了這裡,這是CHATGPT所設定好的記憶技巧,當然有經過我的教導,有我的內容,但也不見得都會全對。就是一個思考的指引,你可以參考看看。 當然他的內容 不是只有勞動法令可以運用,至少會給你三種記憶技巧,你再看一下有沒有適合你的方法。※不過 請注意 其他法條的引用要注意一下
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 45,我們介紹了 Google 於2017 年提出的 Transformer 架構的 Positional Encoding (PE)
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 45,我們介紹了 Google 於2017 年提出的 Transformer 架構的 Positional Encoding (PE)
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
很多AI只要輸入相關的鏡頭的關鍵字,視覺畫面會隨著鏡頭移動。 鏡頭與視角的關鍵字: 微觀|Microscopic view 焦點,對焦|Focus 第一人稱|First person perspective 第三人稱|Third person perspective 特寫|Close
Thumbnail
很多AI只要輸入相關的鏡頭的關鍵字,視覺畫面會隨著鏡頭移動。 鏡頭與視角的關鍵字: 微觀|Microscopic view 焦點,對焦|Focus 第一人稱|First person perspective 第三人稱|Third person perspective 特寫|Close
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News