即時精選

NVIDIA 推出 DreamDojo：從 4.4 萬小時人類影片中學習的通用機器人世界模型

2026/03/02 更新2026/03/02 發佈閱讀 14 分鐘

機器人技術的發展長期以來面臨一個難以克服的痛點：高品質控制資料的取得成本過於高昂。當業界希望打造能夠在各式各樣的真實環境中靈活應對各種任務的通用機器人時，傳統依賴研究人員手把手遙控（Teleoperation）來蒐集資料的作法，顯然無法滿足規模化的需求。為了解決這個困境，人工智慧領域近年來開始投入「世界模型」（World Models）的研發。世界模型的核心概念，是讓人工智慧系統能夠根據當前的環境狀態與即將執行的動作，精準預測出未來可能發生的畫面與物理變化。如果機器人能夠在腦中預演動作的結果，就能大幅減少在現實世界中試錯的成本。

然而，要建立一個能夠精確模擬高自由度、且充滿複雜接觸的機器人任務的世界模型，挑戰極為巨大。現實世界中存在著近乎無限的環境變異，這遠遠超出了現有機器人資料庫所能涵蓋的範圍。為了解決這個瓶頸，NVIDIA 研究團隊近期發表了一項名為 DreamDojo 的突破性研究，提出了一個專為通用機器人設計的基礎世界模型。DreamDojo 的獨特思維在於，它選擇繞過昂貴且稀缺的機器人專屬資料，轉而從高達 4.4 萬小時的第一人稱人類活動影片中，學習物理世界的互動法則。透過獨創的連續潛在動作（Continuous Latent Actions）代理技術與高效的模型蒸餾（Distillation）方法，DreamDojo 不僅展現了對物理規律的深刻理解，更能以每秒 10.81 幀的速度即時生成高品質的預測畫面。這項研究為策略評估、即時遙控與模型預測控制等機器人下游應用，提供了極具實用價值的解決方案。

DreamDojo

機器人訓練資料的三大障礙

在邁向通用機器人的技術路徑上，研究人員遇到了幾個關鍵的障礙：

機器人訓練資料的極度匱乏與分佈侷限：現有的影片世界模型在遊戲模擬或自動駕駛領域已經取得了不錯的進展，但當應用場景轉換到機器人的精細物理操作時，往往會面臨嚴重的性能瓶頸。這主要是因為機器人硬體設計的多樣性，以及資料蒐集過程的高度複雜性，導致現有機器人資料庫的場景與動作覆蓋範圍非常狹窄。現實世界充滿了難以預測的環境變化，很容易就超出既有資料的分佈範圍。更重要的是，現有資料大多來自專家的完美示範，極度缺乏對於邊緣情況、反事實（Counterfactual）動作或隨機意圖的記錄。這使得現有模型難以學會精準且具備容錯能力的動作控制。結果就是，現有的影片世界模型大多只能在訓練時見過的特定場景中進行模擬，一旦要求它預測未見過的動作或環境變化，模擬畫面就會嚴重失真。
人類影片與機器人控制之間的現實世界鴻溝：為了解決機器人專屬資料不足的問題，從網際網路上輕易可得的大規模人類日常影片，成為一個極具吸引力的知識寶庫。人類和機器人在進行物理互動時，所遵循的底層物理定律是完全一致的，這為知識的轉移提供了理論基礎。然而，人類影片中缺乏機器人學習所必須的精細馬達控制標籤。如果只是讓模型被動地觀看人類影片並預測下一個畫面，模型將無法建立起「動作」與「環境變化」之間的因果關係。這對於需要根據特定動作指令來推演未來變化的世界模型來說，是一個無法忽視的缺陷。此外，要將各種類型的動作格式統一，也需要耗費極大的工程心力。
即時運算速度與長期預測穩定性的困難權衡：除了理解複雜的物理規律，一個具有實用價值的世界模型還必須能夠即時產生預測結果，以支持線上模型預測控制或與人類進行即時互動遙控。然而，目前最先進的影片生成技術大多基於擴散模型（Diffusion Models），這種架構通常需要經過多次的去噪步驟，難以達到即時生成的要求。此外，現有模型在生成較長的影片序列時，往往會因為微小誤差的持續累積，導致後續畫面崩壞或出現物理邏輯不一致的現象。

試圖解決資料匱乏與現實世界鴻溝

為了解決上述三大挑戰，NVIDIA 研究團隊從資料庫建置、動作表徵提取、模型架構設計到推論速度優化，設計了一套完整的解決方案。

打造史上最大人類互動資料庫：DreamDojo-HV

研究團隊深知，要讓模型學會通用的物理常識，資料的多樣性比單純的資料量更為重要。因此，他們整合了實驗室內部蒐集的精細資料、公開的 EgoDex 靈巧操作資料庫，以及透過大規模群眾外包建立的 DreamDojo-HV（Human Videos）資料庫。這個混合資料庫總計累積了 4.4 萬小時的第一人稱視角影片，是目前已知用於世界模型預訓練中規模最大的影片資料庫。

與過去知名的機器人資料庫相比，DreamDojo-HV 展現了壓倒性的多樣性優勢。它涵蓋了超過 9800 種獨特場景、6000 種獨特任務以及超過 4.3 萬種獨特物體。影片內容從家庭整理、工業裝配、零售操作到教育學習環境無所不包。這種極致的多樣性為模型提供了學習通用物理定律的豐富素材，並透過引入生活中的各種隨機性，強化了模型應對複雜情境與精細控制的能力。

解決動作標籤缺乏：以連續潛在動作作為統一代理

面對龐大卻沒有任何動作標籤的人類影片，團隊並沒有採用現成的手部姿勢估計模型，因為這類模型在遇到嚴重遮擋或相機劇烈移動時表現不佳，且難以涵蓋手臂移動或全身移動等更宏觀的動作。為了克服這個問題，團隊引入了「連續潛在動作」（Continuous Latent Actions）作為所有影片內容的統一代理動作。

研究團隊訓練了一個基於時空 Transformer 架構的變分自編碼器（VAE）。這個模型的編碼器會分析兩個連續的影片畫面，並將其中的時空特徵壓縮成一個低維度的潛在向量；接著，解碼器必須利用這個向量與前一個畫面，精準重建出下一個畫面。透過這種「資訊瓶頸」的設計，模型被迫從繁雜的像素變化中抽絲剝繭，只保留能解釋畫面變化的最關鍵動作資訊。這種透過自我監督學習自動提取出的潛在動作，不僅能一致地解釋各種不同硬體的動作模式，更能有效跨越人類與機器人之間的結構差異，確保模型能從無標籤的影片中吸收豐富的物理與控制知識。

DreamDojo 基礎世界模型架構的優化

DreamDojo 的底層核心建構在 NVIDIA 既有的 Cosmos-Predict2.5 潛在影片擴散模型之上，並針對機器人操作的需求進行了幾項關鍵的架構升級：

相對動作轉換：傳統方法常直接輸入機器人的絕對關節位置，但這會大幅增加模型學習物理狀態的複雜度。DreamDojo 將所有動作轉換為相對於當前畫面的相對動作，這使得動作數據集中在一個較窄且具備共性的空間內，有助於模型更快學會連續且複雜的機器人控制邏輯。
區塊式動作注入（Chunked Action Injection）：由於底層架構使用的影片分詞器具有時間壓縮的特性（例如將四個像素畫面壓縮成一個潛在畫面），如果在整個影片序列中一次性注入所有動作，會導致模型產生因果關係混淆，無法分辨哪個動作導致了哪個特定的變化。DreamDojo 將連續的四個動作打包成一個區塊，並精準注入對應的潛在畫面中，這種做法大幅強化了動作指令與物理結果之間的因果聯繫。
時間一致性損失函數：在訓練目標上，團隊除了保留原有的流匹配（Flow Matching）損失函數外，額外引入了時間一致性損失函數。這要求模型不僅要預測單一畫面的結果，還要確保連續畫面之間的動態過渡符合真實的物理時間邏輯。這項設計顯著增強了模型對物體形狀的維持能力，並大幅減少了生成影片中的視覺瑕疵。

為了即時互動的自迴歸蒸餾技術

在完成大規模人類影片的預訓練後，DreamDojo 會使用目標機器人的少量資料進行微調，讓模型適應特定的機器人動作空間。然而，為了讓模型能真正在實際應用中發揮價值，解決擴散模型推論速度過慢的問題勢在必行。

團隊採用了基於「自我強制」的兩階段蒸餾流程。首先，他們將原模型中定義固定預測長度的雙向注意力機制，替換為可以連續預測的因果注意力機制，將其轉換為自迴歸模型。在預熱階段，學生模型會學習模仿教師模型的生成軌跡。接著在蒸餾階段，學生模型會開始使用自己生成的歷史畫面作為輸入上下文繼續預測，這能有效減少常見的誤差累積問題。透過這項技術，DreamDojo 成功將原本需要大量運算的去噪步驟縮減，實現了高達每秒 10.81 幀的即時高解析度預測能力，並能在連續預測超過一分鐘的極限測試中保持驚人的穩定性。

DreamDojo 的卓越性能

NVIDIA 團隊為了驗證模型的可靠性，建構了六個嚴格的評估基準，特別針對模型從未見過的場景以及反事實動作進行深度測試：

面對未知場景與物體的強大泛化能力

研究團隊將訓練好的 DreamDojo 模型與未經過人類影片預訓練的基礎模型進行比較。透過細緻的人類偏好評估，結果顯示 DreamDojo 在面對全新的物體與陌生的環境背景時，無論是在物理合理性（例如物體是否會憑空消失、被遮擋後的形狀是否一致、接觸點的力學反應）還是在動作跟隨的精準度上，都表現出壓倒性的優勢。特別是擁有 14B 參數的大型版本，在各項評估中都展現了極高的穩定性，這充分證明了從大規模人類影片中學習到的知識，確實能有效轉移並應用於全新的機器人任務中。

潛在動作與多樣化資料帶來的巨大效益

實驗數據明確指出，相較於不使用任何動作標籤的純被動影片預測訓練，引入潛在動作的 DreamDojo 在各項自動化評估指標上都有顯著的躍升，其表現甚至逼近了使用昂貴動態捕捉設備獲取真實動作標籤的理想狀態。此外，團隊也驗證了擴大資料多樣性的價值：隨著訓練資料庫從單一來源擴展到包含多種人類生活場景的混合資料庫，模型在應對未知場景與複雜連續動作時的表現呈現穩定的正向成長，確認了持續擴展人類活動資料庫是提升世界模型能力的有效策略。

下游應用的龐大潛力：即時遙控、策略評估與線上規劃

DreamDojo 並非僅停留在理論階段，研究團隊透過多個實際應用場景展示了它的價值：

可靠的策略評估（Policy Evaluation）：在複雜的水果包裝任務中，團隊利用 DreamDojo 來模擬機器人策略的執行結果。實驗顯示，DreamDojo 在模擬環境中給出的成功率，與機器人在真實世界中執行的實際成功率，具有極高的線性相關性。這意味著開發團隊未來可以直接在世界模型中放心地測試新策略，無需承擔實體機器人損壞的風險與高昂成本。
模型預測規劃（Model-based Planning）：在機器人執行任務的過程中，可以同時產生多組不同的動作提案，並利用 DreamDojo 即時預演這些動作的未來結果。接著透過外部的價值模型評估這些預測畫面的好壞，機器人便能自適應地選擇最有可能成功的動作來執行。數據顯示，採用這種結合世界模型的預測規劃方法，能將整體任務的成功率提升近兩倍。
流暢的即時遙控（Live Teleoperation）：得益於蒸餾技術帶來的推論加速，使用者可以利用一般的 VR 控制器即時輸入動作指令，而架設在本地端的高階顯示卡上的 DreamDojo 能夠無延遲地生成虛擬機器人與環境互動的畫面。這為未來的機器人遠端沉浸式操作與安全訓練提供了極具潛力的技術方案。

TN科技筆記的觀點

過去業界普遍認為，要讓機器人學會特定任務，唯一的途徑就是耗費大量資源，在現實世界中反覆收集完美的遙控資料。但 DreamDojo 的出現，讓我們看到了「從旁觀中學習物理常識」的可行性。透過網路上大量的影片與極具巧思的「連續潛在動作」設計，模型成功將影片中人類動作的複雜變化，精煉成機器人可以理解的低維度數學向量。這不僅徹底打破了硬體資料匱乏的瓶頸，更深層的意義在於，它讓機器人在真正開始學習特定任務之前，就已經在神經網路深處建立起了對這個世界的「物理直覺」。更難能可貴的是，DreamDojo 透過蒸餾技術將龐大模型的推論速度提升到即時互動的層級，這意味著我們距離打造出能夠「在腦中進行高速沙盤推演」的通用智慧實體，已經邁出了大大的一步。

但在這項技術真正走向大規模商業落地之前，仍有幾個不容忽視的潛在挑戰需要克服。首先，雖然模型對日常的平穩物理互動有了不錯的掌握，但在處理罕見動作或極端物理邊界情況（例如快速且不規則的揮動物體、柔軟非剛性物體的複雜扭曲變形，或是流體的傾倒）時，仍有明顯的改善空間。如果世界模型在這些極端情況下做出過於樂觀或完全錯誤的物理預測，可能會誤導機器人採取危險的動作，在現實工廠或家庭環境中造成嚴重的破壞。如何在維持高幀率即時推論速度的前提下，進一步提升物理接觸模擬的微觀精細度，並將架構平滑地擴展到多視角環境，將是推動這項技術進入下一階段實用化的重要課題。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

70會員

224內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2026/02/25

軟體類股大幅修正的原因？看Anthropic 如何用 AI 攻略 COBOL 與資安堡壘

2026年初軟體股大跌引發市場恐慌，但 AI 正在重塑企業軟體底層價值。TN科技筆記深入解析 Anthropic 的 Claude Code 如何打破 COBOL 現代化的高昂成本，並透過 Claude Code Security 找出超過 500 個隱藏漏洞，重新定義企業資安與技術債的未來。

2026/02/25

軟體類股大幅修正的原因？看Anthropic 如何用 AI 攻略 COBOL 與資安堡壘

2026/02/23

Google 推出 Gemini 3.1 Pro 與 Deep Think：AI 跨越代理式開發與頂尖科學研究

Google 發布最新 Gemini 3.1 Pro 與 Deep Think 模型，AI 正式邁入代理式工作流與深度科學研究階段。本文全面解析其強大邏輯推理能力、ARC-AGI-2 破紀錄跑分，以及如何顛覆軟體開發與科學實驗室。

2026/02/23

Google 推出 Gemini 3.1 Pro 與 Deep Think：AI 跨越代理式開發與頂尖科學研究

2026/02/13

黃仁勳的AI大未來：擁抱「AI直覺」，你的公司不是被AI淘汰，而是被懂AI的人淘汰

解析NVIDIA執行長黃仁勳的AI世界觀。從運算的根本變革，到企業導入AI應拋開ROI、擁抱「AI直覺」的生存指南，再到「AI工廠」與「AI在環」的未來。了解為何你的公司不是被AI淘汰，而是被懂AI的人淘汰。

2026/02/13

黃仁勳的AI大未來：擁抱「AI直覺」，你的公司不是被AI淘汰，而是被懂AI的人淘汰

#AI 的其他內容

AI 特助開聘：Notion 工作空間，終於有自動做事的 AI 員工了｜Notion Custom Agents

金融人類學徒

AI 浪潮下的「毀滅性創新」：解析湯森路透、納斯達克股價重挫的關鍵

與老查一起讀商業好書

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14