
嗨我是 Mech Muse 👋,今天想跟大家好好介紹一個最近在機器人圈引起不少討論的角色——
來自挪威的人型機器人公司 1X,以及他們在 2026 年 1 月正式公開的核心技術:1X World Model(1XWM)。
如果你對「家用人型機器人」有一點期待,大概也會有一個共同疑問:👉 為什麼教機器人做一點小事,要花這麼多時間、資料和成本?
1X 給出的答案很直接:問題不只在 AI,而是在機器人怎麼「理解這個世界」。
這篇文章,我會帶你一步一步看懂 1X 在做什麼、他為什麼要這樣做,以及這條路現在走到哪裡。
一、1X 在解決什麼問題?為什麼「教機器人」這麼貴?
1X 一開始就點出一個產業現實:
現在很多機器人用的,是所謂的 Vision-Language-Action(VLA)模型。簡單說,就是:
看畫面(Vision)+讀指令(Language)→ 直接預測動作(Action)
這類模型的好處,是背後常接一個很強的視覺語言模型,吸收過網路上大量知識;
但問題也很明顯:它們比較擅長「看懂是什麼」,不擅長「預測會發生什麼」。
在真實世界裡,動作牽涉的是物理:
物體會不會滑?力道夠不夠?手伸過去會不會撞到? 這些東西,光靠靜態圖片和語意,其實很難學到。
結果就是什麼?
👉 要教機器人一個人類覺得很簡單的動作,常常要蒐集數萬小時的機器人資料,還得靠遙操作、人力示範,一次一次慢慢磨。
1X 很直接地說:
如果家用機器人每學一個新技能,都要付出這樣的成本,那它永遠不可能普及。
二、1X World Model 在做什麼?他怎麼把「影片」變成「行動」?
所以 1X 換了一個思考方式。
與其問「機器人現在要怎麼動」,他們先問:
如果我能讓機器人先「想像」接下來會發生什麼,動作會不會比較合理?
這就是 World Model 的核心概念。
和一般 VLA 模型直接「從圖片跳到動作」不同,
1X 的做法是三個步驟:
- 輸入一個文字指令 + 起始畫面
- World Model 先生成一段「符合現實世界規則」的未來影片
- 再把這段影片轉換成 NEO 真正要執行的動作序列

關鍵在第二步。
網路上的影片,其實早就隱含了大量「世界怎麼運作」的資訊: 人怎麼拿東西、物體怎麼移動、力通常施在哪裡、哪些動作會失敗。
1X 的想法是:
👉 既然人類的行為已經被拍成這麼多影片,為什麼不讓機器人直接從這些影片學「常識」?
三、為什麼 1X 特別強調「人型機器人」?硬體其實很關鍵
這裡有一個很重要、但常被忽略的點。
1X 特別強調:不是任何機器人,都適合吃這套 world model。
原因很簡單:
網路影片裡的主角,幾乎全部都是「人」。
1X 認為,人型機器人最大的優勢在於:
👉 身體結構、關節、動作方式,跟人類夠像
當機器人的手臂長度、關節限制、動作節奏,和人類相近時,
影片裡學到的「動作先驗(priors)」才比較不會失真。
他們甚至把「硬體」視為 AI stack 的一部分,而不是外掛:
摩擦、慣性、接觸行為,如果跟人類相近, 那模型在影片裡「想像得到的事」,NEO 在現實中就比較做得到。
用一句話說就是:
模型想得到的,NEO 通常真的做得出來。
四、1XWM 是怎麼訓練的?資料量其實沒有你想像得那麼誇張
在技術細節上,1X 也相當坦白地公開他們的訓練策略。
整個 1X World Model backbone,是基於一個 140 億參數的生成式影片模型,但重點在「怎麼餵資料」:
- 第一階段:Egocentric 人類影片(約 900 小時)
讓模型習慣「第一人稱視角」下的操作行為,建立基本的操控直覺。 - 第二階段:NEO 機器人資料(約 70 小時)
用相對少量的資料,讓模型對齊 NEO 的外觀與關節限制。
這裡有一個很重要的觀察:
👉 真正昂貴的機器人資料,用量其實被壓得很低。
為了讓模型更聽懂指令,1X 還做了一件看起來很「工程」、但很關鍵的事:
他們用視覺語言模型幫影片補上「更詳細的文字描述」,讓訓練時的指令條件更清楚。
最後,再透過一個 Inverse Dynamics Model(IDM),
把「影片裡兩個時間點的差異」,轉成 NEO 真正要下的動作指令。
五、實際效果怎麼樣?1X 自己也很誠實地講限制
那效果如何?
1X 做了大量實驗,包含:
- 從沒看過的物品
- 需要雙手協調的動作
- 和人互動的任務
整體來說,生成影片和實際執行的結果,相似度相當高,代表模型對空間、動作與物理的理解確實不錯。
但他們也沒有隱瞞問題:
有時候模型會「想得太樂觀」, 畫面看起來成功,實際執行卻會因為深度或接觸誤差而失敗。
這也讓他們觀察到一件事:
👉 影片品質,跟真實任務成功率高度相關。
甚至只要在測試時,多生成幾個版本、挑最好的那個來執行,成功率就能明顯提升。
六、總結一下:1X World Model 代表什麼?
1X 最後講得很清楚:
他們不是期待一次就做到完美,而是先做到「廣泛但非零的成功率」。
因為只要機器人能靠自己的經驗持續嘗試、評估、修正,
就能形成一個 自我學習的飛輪,而不再被「人類示範」卡死。
1X World Model 想做的事只有一個:
👉 把網路世界裡累積的「人類行為經驗」,真正轉成機器人能用的行動智慧。
這條路還很長,但至少,方向已經比「一直堆人力示範」來得更現實。
如果你對人型機器人、具身 AI,或「AI 什麼時候真的進到家裡」這條線有興趣,
歡迎追蹤我 Mech Muse 👋,之後我也會繼續幫大家把這些技術拆成看得懂、判斷得了的內容。
這篇文章如果有讓你覺得實用、有趣,也可以考慮小額贊助支持我~
👉贊助支持:贊助連結
❤️加入付費會員,每週獲得最新科技新知
《Mech》AI 週一報 #006|2025.12.23~2025.12.29
《Mech》人型機器人 週二報 #006|2025.12.24~2025.12.30
《Mech》小型核能 週三報 #006|2025.12.25~2025.12.31
《Mech》量子科技 週四報 #006|2025.12.26~2025.01.01
《Mech》太空科技 週五報 #006| 2025.12.27~2025.01.02



















