
NVIDIA 以人類洗碗、折衣服的影片,打造出史上最強通用機器人大腦。
傳統的機器人學習資料集,動輒耗費數十名工程師、在受控實驗室環境中累積幾百個小時的動作示範,代價高昂、情境受限,稍微換個燈光角度或桌面擺設,機器人便可能手足無措。
NVIDIA 於 2 月 19 日釋出的解法是一個全新的賽道-完全不依賴機器人動作數據,改以 44,711 小時的第一人稱人類日常影片來訓練通用模型,這套系統被命名為 DreamDojo,由 NVIDIA GEAR Lab 主導,聯合 UC Berkeley、Stanford、UT Austin 等多所頂尖研究機構共同開發。#機器人最大的瓶頸不是硬體
限制機器人能力天花板的,從來不是馬達、感測器,而是訓練資料的匱乏與情境的單一,一旦機器人改變環境,能力就會急速崩解,就像一個只在一間廚房練習過的廚師,換到陌生的廚房不知從何下刀。
DreamDojo-HV 資料集的目的就是打破這道牆,它涵蓋 6,015 種不同任務、超過 113.5 萬條軌跡,橫跨家庭、工業、零售、教育、行政等多元場景,意在以訓練規模取勝,讓資料量本身成為最核心的競爭壁壘。
#影片如何教會機器人
這裡藏著 DreamDojo 最關鍵的技術突破,人類影片有一個致命缺陷,它們沒有機器人所需的動作指令標籤,也就是說,影片只知道手怎麼動,卻不知道這背後對應哪個馬達訊號。
研究團隊的解方是引入一種自監督方法,讓模型直接從相鄰影格之間的像素變化,推論出動作的本質,無需任何硬體標籤。
這就像是讓一個從未學過樂譜的音樂天才,只靠反覆聆聽演奏,便自行歸納出音階規律,進而能夠演奏任何新曲目,透過這套機制,DreamDojo 得以把任何第一人稱影片-無論是人手疊衣服、拼樂高還是搬運貨物,都轉化為可通用的物理直覺,並在後續針對特定機器人硬體進行微調時,迅速先將這套直覺預載進去。
#從模擬到真實世界
通用模型的核心價值,在於它能模擬出行動後的未來狀態,機器人在真正動手之前,先在腦海中預演,但模擬若不夠快就沒有意義,為此,NVIDIA 開發了一套蒸餾流程,將 DreamDojo 的推論速度加速至 10.81 幀/秒。
這個速度使得三個難題迎刃而解-
一是即時遠端操控,操作員戴上 VR 頭盔,就能附身進機器人的視角,因為運算夠快,系統能在虛擬世界裡先算出結果,確認動作完美無誤後,現實中的機器人才會真的動手。
二是擬真的策略評估,在過去,要教會機器人走路,往往要讓實體機器人摔倒一萬次,維修費驚人,如今在虛擬世界裡的模擬結果,與現實世界的相似度高達 0.995 ,這徹底消滅了昂貴的硬體試錯成本。
三是多重模型規劃,當機器人要執行「把螺絲鎖進箱子」這種任務時,會同時進行多種方案的高速運算,並選出那個絕對不會失敗的劇本。
#開源與未來
NVIDIA 同步釋出 20 億參數與 140 億參數兩個版本的模型,連同模型權重、程式碼、後訓練資料集與評估基準,全數開源,這個動作的商業邏輯在,當全球研究社群的下一代機器人開發都跑在 NVIDIA 的軟體框架與 GPU 硬體上,生態系的護城河便自然形成。
當我們在廚房切菜、在辦公室整理文件、在工廠搬運零件時,正在為未來的機器人大腦寫下教科書的每一個字,DreamDojo 展示了人類文明的一種新的延續方式,數千年來積累的行為智慧、那 44,711 個小時的操作身影,以影像的形式永久植入不會疲勞、不會遺忘的鋼鐵大腦之中。
圖片來源:humanoidsdaily-NVIDIA Open-Sources DreamDojo: A 44,000-Hour "Dream" to Solve the Robotics Data Gap




























