RSJ2025｜尾形哲也教授：從 Sim2Real 到 VLA 模型，日本 AI 機器人研究的新時代

發佈於日本等個房間

2025/09/09 更新2025/09/09 發佈閱讀 7 分鐘

在 AI 機器人研究的世界裡，「模擬到現實」（Sim2Real）與「視覺＋語言＋行為整合模型」（VLA Model）正在成為最重要的關鍵字。這篇文章將帶你完整理解早稻田大學尾形哲也教授在 RSJ2025 日本機器人學會 特別講演中提出的最新研究趨勢：

為什麼 Sim2Real 能大幅降低訓練成本，卻又面臨「模擬與真實差距」？
VLA 模型如何讓機器人不只是聽懂語言或看懂影像，而是能「理解語意＋付諸行動」？
日本 AI 機器人協會（AIRoA）如何試圖建構開放的資料與模型基盤，推動社會實裝？

這不是單純的會議摘要，而是一篇深度解析。讀完後，你將能：

✨ 掌握未來 3–5 年內 AI 機器人研究的主流方向 ✨ 理解這些技術對於產業、社會實用化的意義 ✨ 甚至能將這些概念轉化成投資或研發趨勢的判斷依據

日本人形機器人研究的歷史背景：從 ASIMO 說起

尾形教授的講演從回顧歷史開始。他提到，日本在 1990–2000 年代曾因 本田 ASIMO 等人形機器人的突破而備受矚目。這些機器人能 行走、奔跑、上下樓梯、踢足球，展現出驚人的機械控制技術。

然而，當時的限制也很明顯：雖然硬體性能強大，但「語言理解」與「認知推理」的不足，讓這些機器人無法真正走進人類社會的日常場景。這段歷史脈絡，也成為今天「資料驅動 AI 機器人」研究的重要前情。

關鍵啟示：機械結構的進化是基礎，但真正能讓機器人成為「社會成員」的，是 智能層面的突破。

資料驅動 AI 的瓶頸：數據的昂貴與真實世界風險

機器學習與強化學習在 AI 機器人中廣泛應用，但尾形教授直言：「資料，仍是最大的瓶頸。」

要讓機器人學會一個簡單任務（如開門、搬運、分類物件），在真實環境下需要 數十萬次的嘗試。
不僅成本高昂，更存在 安全風險：若是抓握失誤，可能導致機械損壞；若在工業場域，還會影響生產安全。

因此，研究者開始尋求替代方案：如何在「不增加風險」的情況下，依然能獲得足夠的訓練數據？這正是 Sim2Real 技術登場的背景。

Sim2Real：模擬到現實的橋樑

1. 定義與核心概念

Sim2Real（Simulation to Reality）意指：

👉 先在虛擬模擬環境中進行 AI 訓練 👉 再將學到的策略、模型轉移到真實機器人上

這樣的做法能：

大幅節省時間與金錢（模擬環境可無限複製、平行運算）
避免硬體損耗與安全風險

2. 最大挑戰：「Sim-to-Real Gap」

模擬畢竟不是現實，許多細節無法完全複製：

摩擦力、重心偏移、材質差異
感測器在真實世界中的雜訊
模擬物理引擎的理想化假設

因此，研究者必須開發 Domain Randomization（領域隨機化）、生成式數據擴增 等方法，來縮小差距。

3. 新趨勢：生成式 AI 與模擬結合

尾形教授指出，隨著 生成式 AI 的成熟，現在可以用文字描述來快速生成模擬場景與物件，讓機器人接受更加多樣化的訓練。這為 Sim2Real 注入新的可能性。

VLA 模型：視覺、語言與行為的三位一體

1. 從 VLM 到 VLA

過去我們熟悉的 VLM（Vision–Language Model），如 CLIP、GPT-4V，能同時理解文字與影像。但若要讓機器人行動，還缺少「行為層」。

VLA（Vision–Language–Action Model）正是這個缺口的答案。

2. VLA 的運作方式

輸入：機器人接收「影像（視覺）」＋「語言指令」
處理：模型將其轉換成語意理解與行動規劃
輸出：機器人生成可執行的「行為序列」

例如：

有人說：「把桌上的紅色杯子遞給我。」

👉 VLA 模型會讓機器人辨識影像中的紅色杯子 → 規劃路徑 → 控制手臂抓取 → 完成遞交。

3. Emergent Abilities（湧現能力）

VLA 模型的價值，不只是執行命令，而是：

能「舉一反三」，處理沒見過的物件或場景
能跨任務應用，從學習中生成新行為
能結合語意推理，理解多階段任務（例如：先打開櫃子，再拿出裡面的物品）

AIRoA 與開放型 AI 機器人基盤模型

尾形教授不只談技術，也談「生態系統」。

AIRoA（AI Robot Association）：致力於推動 開放資料基盤（Open Dataset Infrastructure） 與 基盤模型（Foundation Model），讓研究者與企業能共享資源，而不是各自為政。
願景：建立一個像「共同語言」一樣的標準化平台，降低開發門檻，加速技術落地。

這與美國 OpenAI、Google DeepMind 的閉鎖式發展路線形成對比，顯示日本希望透過「開放協作」來打造競爭力。

對產業與社會的意義

1. 產業應用

製造業：能快速訓練機器人執行新任務，應對高混低量生產
物流：透過 VLA 模型，機器人能處理多變的包裹與場景
醫療與照護：Sim2Real + VLA 讓服務型機器人能在病房、老人院更安全可靠

2. 社會實裝

在日本少子高齡化背景下，這些技術意味著「補足勞動力」的希望
人機共存環境中，VLA 模型的語意推理能力，能讓機器人更好地融入人類生活

未來 3–5 年的研究方向

尾形教授的演講，實際上勾勒出一條清晰的技術路線圖：

短期：強化 Sim2Real，解決模擬與真實差距
中期：發展 VLA 模型，提升語意理解與行為泛化
長期：透過 AIRoA 建立開放生態，實現社會規模化部署

這不只是學術前沿，更是產業策略。

結語｜為什麼你該關注這場演講？

尾形哲也教授的 RSJ2025 特別講演，雖然聚焦在技術細節，但背後透露的訊息很清楚：

👉 日本正試圖藉由 資料驅動 AI 與 開放生態，重新奠定其在人形機器人領域的領先地位。

對研究者來說，這意味著新的研究課題與合作機會；

對企業來說，這代表新的產業應用與投資方向；對社會來說，這或許是我們距離「生活中真正實用的機器人」更近的一步。

如果你想掌握 AI 機器人的未來，這場講演就是一個 指標性的信號。

✅ 喜歡這篇文章嗎？歡迎追蹤 Mech Muse，一起持續追蹤全球機器人與 AI 技術的最新動態。如果想看更多類似的深度解析，別忘了開啟方格子付費訂閱。

Mech muse 智慧新知人型機器人Mech muse 智慧新知日本

留言

留言分享你的想法！

Mech muse 智慧新知

27會員

437內容數

因為喜歡分享科技新知，所以創立這個部落格，目前主要分享人型機器人，偶爾分享一些AI、小型核能的最新趨勢，讓你即時掌握最新消息。

Mech muse 智慧新知的其他內容

2025/09/09

Galbot 從比賽冠軍到藥局實戰：Sim2Real 技術如何讓人型機器人走進日常？

這篇文章要帶你看到 Galbot 如何靠 Sim2Real 技術從北京賽場奪冠，到藥局、工廠真實落地的完整故事。讀完後，你不只會理解這項技術為什麼能讓人型機器人「少練實戰卻更強大」，還能掌握它如何牽動 Bosch、NVIDIA 等大廠布局，甚至對台灣產業帶來什麼新機會。

2025/09/09

Galbot 從比賽冠軍到藥局實戰：Sim2Real 技術如何讓人型機器人走進日常？

2025/09/08

特斯拉開通「TeslaAI」微博：Optimus 3 正式亮相，揭示未來百萬台級機器人藍圖

特斯拉正式開通「TeslaAI」官方微博，首則貼文亮相第三代人形機器人 Optimus 3，展示更仿真的外觀與手部細節。

2025/09/08

特斯拉開通「TeslaAI」微博：Optimus 3 正式亮相，揭示未來百萬台級機器人藍圖

特斯拉正式開通「TeslaAI」官方微博，首則貼文亮相第三代人形機器人 Optimus 3，展示更仿真的外觀與手部細節。

2025/09/08

從美食到機器人：「中國節」東京登場，文化與科技的交融現場

在東京代代木公園舉辦的「中國節」不只是美食與歌舞盛宴，更首次帶來前沿科技亮相：杭州宇樹科技的人形機器人現場拳擊演示，引爆全場焦點。這篇文章將帶你看見文化與科技如何同台交織，了解中國如何透過軟實力與創新形象在國際舞台上展現「當下」魅力。

2025/09/08

從美食到機器人：「中國節」東京登場，文化與科技的交融現場

#日本的其他內容

【動畫】《極速一百米。／一百公尺。》│關於跑步，跑手想說的其實是⋯⋯

我，儒儒的旅行足跡的沙龍

慵懶小丁的生活隨筆(Lean FIRE)

日本｜如何使用信用卡(apple pay)搭乘沖繩巴士

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15