【NVIDIA釋出開源機器人模型】訓練方式是讓機器人看影片

更新 發佈閱讀 4 分鐘
raw-image

NVIDIA 以人類洗碗、折衣服的影片,打造出史上最強通用機器人大腦。

傳統的機器人學習資料集,動輒耗費數十名工程師、在受控實驗室環境中累積幾百個小時的動作示範,代價高昂、情境受限,稍微換個燈光角度或桌面擺設,機器人便可能手足無措。​

NVIDIA 於 2 月 19 日釋出的解法是一個全新的賽道-完全不依賴機器人動作數據,改以 44,711 小時的第一人稱人類日常影片來訓練通用模型,這套系統被命名為 DreamDojo,由 NVIDIA GEAR Lab 主導,聯合 UC Berkeley、Stanford、UT Austin 等多所頂尖研究機構共同開發。

#機器人最大的瓶頸不是硬體

限制機器人能力天花板的,從來不是馬達、感測器,而是訓練資料的匱乏與情境的單一,一旦機器人改變環境,能力就會急速崩解,就像一個只在一間廚房練習過的廚師,換到陌生的廚房不知從何下刀。​

DreamDojo-HV 資料集的目的就是打破這道牆,它涵蓋 6,015 種不同任務、超過 113.5 萬條軌跡,橫跨家庭、工業、零售、教育、行政等多元場景,意在以訓練規模取勝,讓資料量本身成為最核心的競爭壁壘。

#影片如何教會機器人

這裡藏著 DreamDojo 最關鍵的技術突破,人類影片有一個致命缺陷,它們沒有機器人所需的動作指令標籤,也就是說,影片只知道手怎麼動,卻不知道這背後對應哪個馬達訊號。

研究團隊的解方是引入一種自監督方法,讓模型直接從相鄰影格之間的像素變化,推論出動作的本質,無需任何硬體標籤。​​

這就像是讓一個從未學過樂譜的音樂天才,只靠反覆聆聽演奏,便自行歸納出音階規律,進而能夠演奏任何新曲目,透過這套機制,DreamDojo 得以把任何第一人稱影片-無論是人手疊衣服、拼樂高還是搬運貨物,都轉化為可通用的物理直覺,並在後續針對特定機器人硬體進行微調時,迅速先將這套直覺預載進去。

#從模擬到真實世界

通用模型的核心價值,在於它能模擬出行動後的未來狀態,機器人在真正動手之前,先在腦海中預演,但模擬若不夠快就沒有意義,為此,NVIDIA 開發了一套蒸餾流程,將 DreamDojo 的推論速度加速至 10.81 幀/秒。​​

這個速度使得三個難題迎刃而解-

一是即時遠端操控,操作員戴上 VR 頭盔,就能附身進機器人的視角,因為運算夠快,系統能在虛擬世界裡先算出結果,確認動作完美無誤後,現實中的機器人才會真的動手。

二是擬真的策略評估,在過去,要教會機器人走路,往往要讓實體機器人摔倒一萬次,維修費驚人,如今在虛擬世界裡的模擬結果,與現實世界的相似度高達 0.995 ,這徹底消滅了昂貴的硬體試錯成本。

三是多重模型規劃,當機器人要執行「把螺絲鎖進箱子」這種任務時,會同時進行多種方案的高速運算,並選出那個絕對不會失敗的劇本。

#開源與未來

NVIDIA 同步釋出 20 億參數與 140 億參數兩個版本的模型,連同模型權重、程式碼、後訓練資料集與評估基準,全數開源,這個動作的商業邏輯在,當全球研究社群的下一代機器人開發都跑在 NVIDIA 的軟體框架與 GPU 硬體上,生態系的護城河便自然形成。​

當我們在廚房切菜、在辦公室整理文件、在工廠搬運零件時,正在為未來的機器人大腦寫下教科書的每一個字,DreamDojo 展示了人類文明的一種新的延續方式,數千年來積累的行為智慧、那 44,711 個小時的操作身影,以影像的形式永久植入不會疲勞、不會遺忘的鋼鐵大腦之中。

圖片來源:humanoidsdaily-NVIDIA Open-Sources DreamDojo: A 44,000-Hour "Dream" to Solve the Robotics Data Gap

留言
avatar-img
思潮
24會員
166內容數
精選全球最前沿的突破, 從硬核的AI哲思、 太空的無限可能, 到您手中裝置的微小創新, 用最精闢的洞察, 為您構築一個預見未來的視窗。
思潮的其他內容
2026/02/26
「如果你以懶惰的方式使用 AI,它會讓你的批判性思考力變得更糟。」這是 DeepMind 執行長 Demis Hassabis 於2月19日的印度 AI 影響力峰會的發言。
Thumbnail
2026/02/26
「如果你以懶惰的方式使用 AI,它會讓你的批判性思考力變得更糟。」這是 DeepMind 執行長 Demis Hassabis 於2月19日的印度 AI 影響力峰會的發言。
Thumbnail
2026/02/21
細菌的抗藥性是用抗生素逼出來的?結果羅馬尼亞一座洞穴的古老冰層,挖出了一個早在 5,000 年前就自帶抗藥性技能樹的細菌。
Thumbnail
2026/02/21
細菌的抗藥性是用抗生素逼出來的?結果羅馬尼亞一座洞穴的古老冰層,挖出了一個早在 5,000 年前就自帶抗藥性技能樹的細菌。
Thumbnail
2026/02/19
最熱情擁抱 AI 工具的員工,正以最快速度走向職業倦怠-這是 2 月 9 日發表於《哈佛商業評論》的研究成果。 加州大學柏克萊分校的管理學副教授 Aruna Ranganathan 與研究員 Xingqi Maggie Ye,在一家 200 人規模的美國科技公司進行了深度的田野調查...
Thumbnail
2026/02/19
最熱情擁抱 AI 工具的員工,正以最快速度走向職業倦怠-這是 2 月 9 日發表於《哈佛商業評論》的研究成果。 加州大學柏克萊分校的管理學副教授 Aruna Ranganathan 與研究員 Xingqi Maggie Ye,在一家 200 人規模的美國科技公司進行了深度的田野調查...
Thumbnail
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
根據 《週刊東洋經濟》 最新一期專題:「半導體新次元:フィジカル AI(實體 AI)」。全球半導體龍頭 NVIDIA 正在推動一場革命——將 AI 從螢幕裡的聊天機器人,推向現實世界中的機器人與自動化系統。
Thumbnail
根據 《週刊東洋經濟》 最新一期專題:「半導體新次元:フィジカル AI(實體 AI)」。全球半導體龍頭 NVIDIA 正在推動一場革命——將 AI 從螢幕裡的聊天機器人,推向現實世界中的機器人與自動化系統。
Thumbnail
這篇文章會帶你了解 NVIDIA 在華府宣布的「Physical AI」產業聯盟,從數位分身、工廠自動化到人形機器人的完整拼圖。讀完後你會知道這波合作的技術底座、台廠角色,以及對未來機器人落地的實際意義。
Thumbnail
這篇文章會帶你了解 NVIDIA 在華府宣布的「Physical AI」產業聯盟,從數位分身、工廠自動化到人形機器人的完整拼圖。讀完後你會知道這波合作的技術底座、台廠角色,以及對未來機器人落地的實際意義。
Thumbnail
在這篇文章裡,你會一次掌握 NVIDIA 最新動態:從 OpenAI 10GW 超級合作、Blackwell 上線、DGX Spark 出貨,到財報數據與供應鏈進展。我會用淺白方式帶你看懂它如何從「賣 GPU」變成「蓋 AI 工廠」,以及未來 Rubin 平台與風險挑戰。
Thumbnail
在這篇文章裡,你會一次掌握 NVIDIA 最新動態:從 OpenAI 10GW 超級合作、Blackwell 上線、DGX Spark 出貨,到財報數據與供應鏈進展。我會用淺白方式帶你看懂它如何從「賣 GPU」變成「蓋 AI 工廠」,以及未來 Rubin 平台與風險挑戰。
Thumbnail
NVIDIA 第一季財報亮眼,營收年增 69% 達 440 億美元,但中國市場出口管制帶來衝擊。資料中心業務強勁成長,AI 推理需求爆發,成為主要成長動力。NVIDIA 正積極佈局各國 AI 基礎設施建設,並面臨來自華為等中國競爭者的挑戰。
Thumbnail
NVIDIA 第一季財報亮眼,營收年增 69% 達 440 億美元,但中國市場出口管制帶來衝擊。資料中心業務強勁成長,AI 推理需求爆發,成為主要成長動力。NVIDIA 正積極佈局各國 AI 基礎設施建設,並面臨來自華為等中國競爭者的挑戰。
Thumbnail
NVIDIA 2025 GTC大會重點剖析:黃仁勳的AI工廠預言、Blackwell架構的40倍效能提升、矽光子技術的資料中心革新、AI推理需求大爆發、機器人時代來臨,以及企業AI轉型策略。阿峰老師帶你深入瞭解AI趨勢,掌握AI商機。
Thumbnail
NVIDIA 2025 GTC大會重點剖析:黃仁勳的AI工廠預言、Blackwell架構的40倍效能提升、矽光子技術的資料中心革新、AI推理需求大爆發、機器人時代來臨,以及企業AI轉型策略。阿峰老師帶你深入瞭解AI趨勢,掌握AI商機。
Thumbnail
NVIDIA Isaac GR00T N1是全球首個 開放的通用人形機器人基礎模型,透過 多模態學習、雙系統架構、合成數據強化和開放式開發環境,加速人形機器人的進化。本文探討GR00T N1的技術突破、合作夥伴、開發工具,以及 NVIDIA 在人形機器人未來的重要角色。
Thumbnail
NVIDIA Isaac GR00T N1是全球首個 開放的通用人形機器人基礎模型,透過 多模態學習、雙系統架構、合成數據強化和開放式開發環境,加速人形機器人的進化。本文探討GR00T N1的技術突破、合作夥伴、開發工具,以及 NVIDIA 在人形機器人未來的重要角色。
Thumbnail
⭐️ Nvidia 發表個人 AI 超級電腦「Project Digits」 ⭐️ Nvidia 推出 Cosmos WFM,進軍世界模型領域。 ⭐️ Google 發布新款 AI 驅動的 Google TV
Thumbnail
⭐️ Nvidia 發表個人 AI 超級電腦「Project Digits」 ⭐️ Nvidia 推出 Cosmos WFM,進軍世界模型領域。 ⭐️ Google 發布新款 AI 驅動的 Google TV
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News