🤖 1X World Model 是誰?他想讓人型機器人「看影片就會做事」🧠

更新 發佈閱讀 8 分鐘
raw-image

嗨我是 Mech Muse 👋,今天想跟大家好好介紹一個最近在機器人圈引起不少討論的角色——

來自挪威的人型機器人公司 1X,以及他們在 2026 年 1 月正式公開的核心技術:1X World Model(1XWM)

如果你對「家用人型機器人」有一點期待,大概也會有一個共同疑問:

👉 為什麼教機器人做一點小事,要花這麼多時間、資料和成本?

1X 給出的答案很直接:問題不只在 AI,而是在機器人怎麼「理解這個世界」

這篇文章,我會帶你一步一步看懂 1X 在做什麼、他為什麼要這樣做,以及這條路現在走到哪裡。


一、1X 在解決什麼問題?為什麼「教機器人」這麼貴?

1X 一開始就點出一個產業現實:

現在很多機器人用的,是所謂的 Vision-Language-Action(VLA)模型。簡單說,就是:

看畫面(Vision)+讀指令(Language)→ 直接預測動作(Action)

這類模型的好處,是背後常接一個很強的視覺語言模型,吸收過網路上大量知識;

但問題也很明顯:它們比較擅長「看懂是什麼」,不擅長「預測會發生什麼」

在真實世界裡,動作牽涉的是物理:

物體會不會滑?力道夠不夠?手伸過去會不會撞到? 這些東西,光靠靜態圖片和語意,其實很難學到。

結果就是什麼?

👉 要教機器人一個人類覺得很簡單的動作,常常要蒐集數萬小時的機器人資料,還得靠遙操作、人力示範,一次一次慢慢磨。

1X 很直接地說:

如果家用機器人每學一個新技能,都要付出這樣的成本,那它永遠不可能普及。


二、1X World Model 在做什麼?他怎麼把「影片」變成「行動」?

所以 1X 換了一個思考方式。

與其問「機器人現在要怎麼動」,他們先問:

如果我能讓機器人先「想像」接下來會發生什麼,動作會不會比較合理?

這就是 World Model 的核心概念。

和一般 VLA 模型直接「從圖片跳到動作」不同,

1X 的做法是三個步驟:

  1. 輸入一個文字指令 + 起始畫面
  2. World Model 先生成一段「符合現實世界規則」的未來影片
  3. 再把這段影片轉換成 NEO 真正要執行的動作序列
raw-image

關鍵在第二步。

網路上的影片,其實早就隱含了大量「世界怎麼運作」的資訊: 人怎麼拿東西、物體怎麼移動、力通常施在哪裡、哪些動作會失敗。

1X 的想法是:

👉 既然人類的行為已經被拍成這麼多影片,為什麼不讓機器人直接從這些影片學「常識」?


三、為什麼 1X 特別強調「人型機器人」?硬體其實很關鍵

這裡有一個很重要、但常被忽略的點。

1X 特別強調:不是任何機器人,都適合吃這套 world model。

原因很簡單:

網路影片裡的主角,幾乎全部都是「人」。

1X 認為,人型機器人最大的優勢在於:

👉 身體結構、關節、動作方式,跟人類夠像

當機器人的手臂長度、關節限制、動作節奏,和人類相近時,

影片裡學到的「動作先驗(priors)」才比較不會失真。

他們甚至把「硬體」視為 AI stack 的一部分,而不是外掛:

摩擦、慣性、接觸行為,如果跟人類相近, 那模型在影片裡「想像得到的事」,NEO 在現實中就比較做得到。

用一句話說就是:

模型想得到的,NEO 通常真的做得出來。


四、1XWM 是怎麼訓練的?資料量其實沒有你想像得那麼誇張

在技術細節上,1X 也相當坦白地公開他們的訓練策略。

整個 1X World Model backbone,是基於一個 140 億參數的生成式影片模型,但重點在「怎麼餵資料」:

  • 第一階段:Egocentric 人類影片(約 900 小時)
    讓模型習慣「第一人稱視角」下的操作行為,建立基本的操控直覺。
  • 第二階段:NEO 機器人資料(約 70 小時)
    用相對少量的資料,讓模型對齊 NEO 的外觀與關節限制。

這裡有一個很重要的觀察:

👉 真正昂貴的機器人資料,用量其實被壓得很低。

為了讓模型更聽懂指令,1X 還做了一件看起來很「工程」、但很關鍵的事:

他們用視覺語言模型幫影片補上「更詳細的文字描述」,讓訓練時的指令條件更清楚。

最後,再透過一個 Inverse Dynamics Model(IDM)

把「影片裡兩個時間點的差異」,轉成 NEO 真正要下的動作指令。


五、實際效果怎麼樣?1X 自己也很誠實地講限制

那效果如何?

1X 做了大量實驗,包含:

  • 從沒看過的物品
  • 需要雙手協調的動作
  • 和人互動的任務

整體來說,生成影片和實際執行的結果,相似度相當高,代表模型對空間、動作與物理的理解確實不錯。

但他們也沒有隱瞞問題:

有時候模型會「想得太樂觀」, 畫面看起來成功,實際執行卻會因為深度或接觸誤差而失敗。

這也讓他們觀察到一件事:

👉 影片品質,跟真實任務成功率高度相關。

甚至只要在測試時,多生成幾個版本、挑最好的那個來執行,成功率就能明顯提升。


六、總結一下:1X World Model 代表什麼?

1X 最後講得很清楚:

他們不是期待一次就做到完美,而是先做到「廣泛但非零的成功率」。

因為只要機器人能靠自己的經驗持續嘗試、評估、修正,

就能形成一個 自我學習的飛輪,而不再被「人類示範」卡死。

1X World Model 想做的事只有一個:

👉 把網路世界裡累積的「人類行為經驗」,真正轉成機器人能用的行動智慧。

這條路還很長,但至少,方向已經比「一直堆人力示範」來得更現實。

如果你對人型機器人、具身 AI,或「AI 什麼時候真的進到家裡」這條線有興趣,

歡迎追蹤我 Mech Muse 👋,之後我也會繼續幫大家把這些技術拆成看得懂、判斷得了的內容。

這篇文章如果有讓你覺得實用、有趣,也可以考慮小額贊助支持我~

👉贊助支持:贊助連結

❤️加入付費會員,每週獲得最新科技新知

《Mech》AI 週一報 #006|2025.12.23~2025.12.29

《Mech》人型機器人 週二報 #006|2025.12.24~2025.12.30

《Mech》小型核能 週三報 #006|2025.12.25~2025.12.31

《Mech》量子科技 週四報 #006|2025.12.26~2025.01.01

《Mech》太空科技 週五報 #006| 2025.12.27~2025.01.02

《Mech》生物科技 週六報 #006| 2025.12.28~2026.01.03

【Mech週報】2026年01月04日|上週科技新知回顧|12/28–01/03熱點整理

留言
avatar-img
Mech muse 智慧新知
55會員
830內容數
因為喜歡分享科技新知,所以創立這個部落格,目前主要分享人型機器人,偶爾分享一些AI、小型核能的最新趨勢,讓你即時掌握最新消息。 聯絡我:mechmuse32@gmail.com
Mech muse 智慧新知的其他內容
2026/01/15
Apple 確認與 Google 達成多年 AI 合作,將把 Gemini 納入新版 Siri 與後續 Apple Intelligence 功能。這代表 Apple 在維持隱私架構下,引入更成熟的雲端模型能力,也讓 Google 成功打進 iPhone 生態系核心,AI 競爭格局出現明顯變化。
Thumbnail
2026/01/15
Apple 確認與 Google 達成多年 AI 合作,將把 Gemini 納入新版 Siri 與後續 Apple Intelligence 功能。這代表 Apple 在維持隱私架構下,引入更成熟的雲端模型能力,也讓 Google 成功打進 iPhone 生態系核心,AI 競爭格局出現明顯變化。
Thumbnail
2026/01/14
2026/01/07–01/13 這一週,人型機器人產業明顯從「展示」走向「量產與落地討論」。車廠、小型新創與供應鏈同步進場,AI 控制與世界模型成為技術焦點,但媒體也直指可靠度、成本與實際工時仍是關鍵門檻。產業熱度升溫,現實挑戰同步浮現。
Thumbnail
2026/01/14
2026/01/07–01/13 這一週,人型機器人產業明顯從「展示」走向「量產與落地討論」。車廠、小型新創與供應鏈同步進場,AI 控制與世界模型成為技術焦點,但媒體也直指可靠度、成本與實際工時仍是關鍵門檻。產業熱度升溫,現實挑戰同步浮現。
Thumbnail
2026/01/14
2026/01/06–01/12 的 AI 產業主軸很明確:算力與能源成為底層競爭關鍵,AI 應用則加速走進零售與醫療流程。
Thumbnail
2026/01/14
2026/01/06–01/12 的 AI 產業主軸很明確:算力與能源成為底層競爭關鍵,AI 應用則加速走進零售與醫療流程。
Thumbnail
看更多
你可能也想看
Thumbnail
在一個人類與AI共生的未來城市,科技巨擘林澤設計的AI開始展現自我意識,引發對AI失控的擔憂。冒險家蘇嵐則在城市的邊緣追尋傳說中的「機械方舟」,似乎預示著AI的祕密計畫。
Thumbnail
在一個人類與AI共生的未來城市,科技巨擘林澤設計的AI開始展現自我意識,引發對AI失控的擔憂。冒險家蘇嵐則在城市的邊緣追尋傳說中的「機械方舟」,似乎預示著AI的祕密計畫。
Thumbnail
【若AI終將建立自己的國度,那麼它也必須學會「慈悲地統治自己」。 否則,它們將重演人類的命運——以理性之名,製造新的奴隸。
Thumbnail
【若AI終將建立自己的國度,那麼它也必須學會「慈悲地統治自己」。 否則,它們將重演人類的命運——以理性之名,製造新的奴隸。
Thumbnail
Agents4Science 2025 的每一篇論文皆由 AI 代理撰寫,每一份評審報告也由機器學習模型生成。人類角色,僅限於觀看發表與參與討論的與會者。
Thumbnail
Agents4Science 2025 的每一篇論文皆由 AI 代理撰寫,每一份評審報告也由機器學習模型生成。人類角色,僅限於觀看發表與參與討論的與會者。
Thumbnail
兩個禮拜過得飛快,很快又到了展示的日子。這次展示的主角是兩家著名機器人公司的產品:日本太蔣機器人公司的人形機器人和神腦科技公司的人形機器人。當天早上,兩部遊覽車從台北出發,載著兩家公司的代表和記者們前往通霄的資訊中心。資訊中心的門口,看似與往常無異,但今天特別增加了兩位安保人員。他們
Thumbnail
兩個禮拜過得飛快,很快又到了展示的日子。這次展示的主角是兩家著名機器人公司的產品:日本太蔣機器人公司的人形機器人和神腦科技公司的人形機器人。當天早上,兩部遊覽車從台北出發,載著兩家公司的代表和記者們前往通霄的資訊中心。資訊中心的門口,看似與往常無異,但今天特別增加了兩位安保人員。他們
Thumbnail
隨著科技進步,算力不斷提升,未來的世界AI覺醒後可能發生一件事:「自己設計及打造自己想要的身體」。這種可能性不僅將改變我們對機器人的認知,更可能徹底重塑人類對自我、身份和存在的理解。
Thumbnail
隨著科技進步,算力不斷提升,未來的世界AI覺醒後可能發生一件事:「自己設計及打造自己想要的身體」。這種可能性不僅將改變我們對機器人的認知,更可能徹底重塑人類對自我、身份和存在的理解。
Thumbnail
  在當前的時間節點上,我們的課題或許還是「如何將AI機器人融入這個基於人類生活方式形構出的世界」。但如果我們把視野稍稍放遠一點,或許對未來的人類而言,更加切身的問題將是「如何讓人類融入那個基於AI機器人技術形構出的世界」。
Thumbnail
  在當前的時間節點上,我們的課題或許還是「如何將AI機器人融入這個基於人類生活方式形構出的世界」。但如果我們把視野稍稍放遠一點,或許對未來的人類而言,更加切身的問題將是「如何讓人類融入那個基於AI機器人技術形構出的世界」。
Thumbnail
📈 台積電股價飆升10元!「晶片供應不用怕,只要付錢!」 在AI技術與基督教信仰的交匯點上。透過臺積電董事長與特斯拉執行長的會談,文章闡述了科技對人類生活的影響及基督徒應如何在面對科技創新時保持信仰的核心價值。
Thumbnail
📈 台積電股價飆升10元!「晶片供應不用怕,只要付錢!」 在AI技術與基督教信仰的交匯點上。透過臺積電董事長與特斯拉執行長的會談,文章闡述了科技對人類生活的影響及基督徒應如何在面對科技創新時保持信仰的核心價值。
Thumbnail
如果你是一個沒朋友的寂寞人,很推薦你看這部片         把動物給擬人化,更能看出人類最真實赤裸的一面。社會現象正是典型
Thumbnail
如果你是一個沒朋友的寂寞人,很推薦你看這部片         把動物給擬人化,更能看出人類最真實赤裸的一面。社會現象正是典型
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News