你好,我是 Mech Muse。
在 2025 年 5 月 9 日,密西根大學工程學院發佈了一項研究:研究團隊提出 LEGO-H (Let Humanoids Hike!),一種結合視覺、決策與動作控制的 AI 框架。簡單說,它就是讓人型機器人能「看懂前方地形,自己決定怎麼走」,而不是單純靠預先寫好的步態程序。
過去的人型機器人很會走「平地」或是「預設好的樓梯」,但一旦遇到樹根、石塊或凹洞,往往就會跌個四腳朝天。研究團隊的目標,是要讓這些機器人在「沒有路標指引」的狀況下,也能自己找到安全又有效率的走法。
研究團隊提出的 LEGO-H 方法,就像替機器人裝了一套「健行腦袋」:能看遠景、顧腳下、調整身體,還能即時選擇跨、跳或繞。
這篇文章會告訴你:
- 為什麼「健行」是人形機器人的理想挑戰場
- LEGO-H 的雙層腦袋怎麼分工
- 它怎麼從「老師」身上學到自然的步伐
- 在模擬實驗裡出現哪些驚喜行為
為什麼讓人形機器人去健行?因為森林比實驗室更會考你 🌲🪵⛰️
對人類來說,健行是運動+冒險;但對機器人來說,它幾乎是「魔王關卡」。
想像一下:
- 前方有顆倒木 🌳,要跨過還是繞?
- 石縫之間不規則 🪨,腳該怎麼落?
- 突然遇到斜坡 ⛰️,要快步、慢步還是跳?
這些情境對人腦來說是日常直覺,但對機器人卻是高難度挑戰。傳統做法把問題拆成兩塊:
- 導航:決定大方向(往哪走)
- 控制:決定小動作(怎麼走)
結果常出現「腦袋知道要往前,但腳卻沒辦法跟上」的狀況。
👉 LEGO-H 想要解決這個分裂,把「看、想、走」整合成一條訊號鏈。它要求機器人具備三大能力:
- 行走多樣性:走路之外,還得會跨、跳、傾身,同時保持平衡。
- 知覺覺察:讀懂三維地形,知道下一步落腳安全。
- 身體覺察:根據自己的體型與當下狀態,決定最合適的走法。
Mech Muse 觀點:健行對機器人來說,像是參加「綜合格鬥」比賽——得同時用腦、用眼、用腳。能在山林裡走得穩的機器人,才是真正能在現實世界「派上用場」的好夥伴。💼🗻
LEGO-H 怎麼動?斥侯幫你看前面,舞者負責踩當下 👀➡️🦶
LEGO-H 就像替機器人安裝了兩個角色:一個是「斥侯 🧙♂️」,專門負責看路;另一個是「舞者 💃」,專心踩穩每一步。
斥侯的正式名稱叫 TC-ViT(Temporal-Conditioned Vision Transformer,時間條件式視覺轉換器),它會同時讀取深度影像 📷、機器人自身的狀態 🤖,以及終點的方向 🧭,最後輸出兩樣東西:一個是短期的導航箭頭,另一個是濃縮環境與身體資訊的潛在向量。它的特別之處在於,能「抬頭看遠 👀」規劃方向,也能「低頭看近 🦶」關注腳下細節,就像一個登山者既要望向山口 ⛰️,又要小心腳下石縫 🪨。

TC-ViT 架構。三個關鍵組成部分: a) 一個以目標為導向的時間轉換器編碼器,用於讓機器人根據最終目標來感知周圍環境; b) 一個針對當前深度幀的平行處理過程,用來整合精確的空間資訊,以反映當前狀態; c) 一個週期性目標調適機制,用來整合視覺感知、目標資訊和本體感覺。