RSJ2025|尾形哲也教授:從 Sim2Real 到 VLA 模型,日本 AI 機器人研究的新時代

Mech muse 智慧新知-avatar-img
發佈於日本 個房間
更新於 發佈於 閱讀時間約 7 分鐘

在 AI 機器人研究的世界裡,「模擬到現實」(Sim2Real)與「視覺+語言+行為整合模型」(VLA Model)正在成為最重要的關鍵字。這篇文章將帶你完整理解早稻田大學尾形哲也教授在 RSJ2025 日本機器人學會 特別講演中提出的最新研究趨勢:

  • 為什麼 Sim2Real 能大幅降低訓練成本,卻又面臨「模擬與真實差距」?
  • VLA 模型如何讓機器人不只是聽懂語言或看懂影像,而是能「理解語意+付諸行動」?
  • 日本 AI 機器人協會(AIRoA)如何試圖建構開放的資料與模型基盤,推動社會實裝?

這不是單純的會議摘要,而是一篇深度解析。讀完後,你將能:

✨ 掌握未來 3–5 年內 AI 機器人研究的主流方向 ✨ 理解這些技術對於產業、社會實用化的意義 ✨ 甚至能將這些概念轉化成投資或研發趨勢的判斷依據


日本人形機器人研究的歷史背景:從 ASIMO 說起

尾形教授的講演從回顧歷史開始。他提到,日本在 1990–2000 年代曾因 本田 ASIMO 等人形機器人的突破而備受矚目。這些機器人能 行走、奔跑、上下樓梯、踢足球,展現出驚人的機械控制技術。

然而,當時的限制也很明顯:雖然硬體性能強大,但「語言理解」與「認知推理」的不足,讓這些機器人無法真正走進人類社會的日常場景。這段歷史脈絡,也成為今天「資料驅動 AI 機器人」研究的重要前情。

關鍵啟示:機械結構的進化是基礎,但真正能讓機器人成為「社會成員」的,是 智能層面的突破


資料驅動 AI 的瓶頸:數據的昂貴與真實世界風險

機器學習與強化學習在 AI 機器人中廣泛應用,但尾形教授直言:「資料,仍是最大的瓶頸。」

  • 要讓機器人學會一個簡單任務(如開門、搬運、分類物件),在真實環境下需要 數十萬次的嘗試
  • 不僅成本高昂,更存在 安全風險:若是抓握失誤,可能導致機械損壞;若在工業場域,還會影響生產安全。

因此,研究者開始尋求替代方案:如何在「不增加風險」的情況下,依然能獲得足夠的訓練數據?這正是 Sim2Real 技術登場的背景。


Sim2Real:模擬到現實的橋樑

1. 定義與核心概念

Sim2Real(Simulation to Reality)意指:

👉 先在虛擬模擬環境中進行 AI 訓練 👉 再將學到的策略、模型轉移到真實機器人上

這樣的做法能:

  • 大幅節省時間與金錢(模擬環境可無限複製、平行運算)
  • 避免硬體損耗與安全風險

2. 最大挑戰:「Sim-to-Real Gap」

模擬畢竟不是現實,許多細節無法完全複製:

  • 摩擦力、重心偏移、材質差異
  • 感測器在真實世界中的雜訊
  • 模擬物理引擎的理想化假設

因此,研究者必須開發 Domain Randomization(領域隨機化)生成式數據擴增 等方法,來縮小差距。

3. 新趨勢:生成式 AI 與模擬結合

尾形教授指出,隨著 生成式 AI 的成熟,現在可以用文字描述來快速生成模擬場景與物件,讓機器人接受更加多樣化的訓練。這為 Sim2Real 注入新的可能性。


VLA 模型:視覺、語言與行為的三位一體

1. 從 VLM 到 VLA

過去我們熟悉的 VLM(Vision–Language Model),如 CLIP、GPT-4V,能同時理解文字與影像。但若要讓機器人行動,還缺少「行為層」。

VLA(Vision–Language–Action Model)正是這個缺口的答案。

2. VLA 的運作方式

  • 輸入:機器人接收「影像(視覺)」+「語言指令」
  • 處理:模型將其轉換成語意理解與行動規劃
  • 輸出:機器人生成可執行的「行為序列」

例如:

有人說:「把桌上的紅色杯子遞給我。」

👉 VLA 模型會讓機器人辨識影像中的紅色杯子 → 規劃路徑 → 控制手臂抓取 → 完成遞交。

3. Emergent Abilities(湧現能力)

VLA 模型的價值,不只是執行命令,而是:

  • 能「舉一反三」,處理沒見過的物件或場景
  • 能跨任務應用,從學習中生成新行為
  • 能結合語意推理,理解多階段任務(例如:先打開櫃子,再拿出裡面的物品)

AIRoA 與開放型 AI 機器人基盤模型

尾形教授不只談技術,也談「生態系統」。

  • AIRoA(AI Robot Association):致力於推動 開放資料基盤(Open Dataset Infrastructure)基盤模型(Foundation Model),讓研究者與企業能共享資源,而不是各自為政。
  • 願景:建立一個像「共同語言」一樣的標準化平台,降低開發門檻,加速技術落地。

這與美國 OpenAI、Google DeepMind 的閉鎖式發展路線形成對比,顯示日本希望透過「開放協作」來打造競爭力。


對產業與社會的意義

1. 產業應用

  • 製造業:能快速訓練機器人執行新任務,應對高混低量生產
  • 物流:透過 VLA 模型,機器人能處理多變的包裹與場景
  • 醫療與照護:Sim2Real + VLA 讓服務型機器人能在病房、老人院更安全可靠

2. 社會實裝

  • 在日本少子高齡化背景下,這些技術意味著「補足勞動力」的希望
  • 人機共存環境中,VLA 模型的語意推理能力,能讓機器人更好地融入人類生活

未來 3–5 年的研究方向

尾形教授的演講,實際上勾勒出一條清晰的技術路線圖:

  1. 短期:強化 Sim2Real,解決模擬與真實差距
  2. 中期:發展 VLA 模型,提升語意理解與行為泛化
  3. 長期:透過 AIRoA 建立開放生態,實現社會規模化部署

這不只是學術前沿,更是產業策略。


結語|為什麼你該關注這場演講?

尾形哲也教授的 RSJ2025 特別講演,雖然聚焦在技術細節,但背後透露的訊息很清楚:

👉 日本正試圖藉由 資料驅動 AI開放生態,重新奠定其在人形機器人領域的領先地位。

對研究者來說,這意味著新的研究課題與合作機會;

對企業來說,這代表新的產業應用與投資方向; 對社會來說,這或許是我們距離「生活中真正實用的機器人」更近的一步。

如果你想掌握 AI 機器人的未來,這場講演就是一個 指標性的信號


✅ 喜歡這篇文章嗎?歡迎追蹤 Mech Muse,一起持續追蹤全球機器人與 AI 技術的最新動態。如果想看更多類似的深度解析,別忘了開啟方格子付費訂閱。

留言
avatar-img
留言分享你的想法!
avatar-img
Mech muse 智慧新知
17會員
214內容數
27歲的剛畢業碩士生,所以創立這個部落格分享科技最新趨勢,目前寫人型機器人、AI人工智慧、小型核能SMR。透過文字與照片,我希望與你們一同暢想智能時代的可能性,歡迎加入這場科技之旅!
Mech muse 智慧新知的其他內容
2025/09/09
這篇文章要帶你看到 Galbot 如何靠 Sim2Real 技術從北京賽場奪冠,到藥局、工廠真實落地的完整故事。讀完後,你不只會理解這項技術為什麼能讓人型機器人「少練實戰卻更強大」,還能掌握它如何牽動 Bosch、NVIDIA 等大廠布局,甚至對台灣產業帶來什麼新機會。
Thumbnail
2025/09/09
這篇文章要帶你看到 Galbot 如何靠 Sim2Real 技術從北京賽場奪冠,到藥局、工廠真實落地的完整故事。讀完後,你不只會理解這項技術為什麼能讓人型機器人「少練實戰卻更強大」,還能掌握它如何牽動 Bosch、NVIDIA 等大廠布局,甚至對台灣產業帶來什麼新機會。
Thumbnail
2025/09/08
特斯拉正式開通「TeslaAI」官方微博,首則貼文亮相第三代人形機器人 Optimus 3,展示更仿真的外觀與手部細節。
Thumbnail
2025/09/08
特斯拉正式開通「TeslaAI」官方微博,首則貼文亮相第三代人形機器人 Optimus 3,展示更仿真的外觀與手部細節。
Thumbnail
2025/09/08
在東京代代木公園舉辦的「中國節」不只是美食與歌舞盛宴,更首次帶來前沿科技亮相:杭州宇樹科技的人形機器人現場拳擊演示,引爆全場焦點。這篇文章將帶你看見文化與科技如何同台交織,了解中國如何透過軟實力與創新形象在國際舞台上展現「當下」魅力。
Thumbnail
2025/09/08
在東京代代木公園舉辦的「中國節」不只是美食與歌舞盛宴,更首次帶來前沿科技亮相:杭州宇樹科技的人形機器人現場拳擊演示,引爆全場焦點。這篇文章將帶你看見文化與科技如何同台交織,了解中國如何透過軟實力與創新形象在國際舞台上展現「當下」魅力。
Thumbnail
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
時間快轉至2030年,或許城市還無懸浮飛車,但AI先會像電力存在每一個角落。百工百業運用智慧算力,就像打開水龍頭一樣容易。這描述並非Cyberpunk科幻場景,正逐漸在世界各地悄然成形。
Thumbnail
時間快轉至2030年,或許城市還無懸浮飛車,但AI先會像電力存在每一個角落。百工百業運用智慧算力,就像打開水龍頭一樣容易。這描述並非Cyberpunk科幻場景,正逐漸在世界各地悄然成形。
Thumbnail
人工智能的年代已經來臨。作為人類的我們應何去何從?與其與機械人比拼競爭,不如與它們合作共存。在市場學上推崇「藍海策略」(Blue Ocean Strategy),意指跨越現有競爭的邊界,拓展未存在的領域,創造新的價值與需求。
Thumbnail
人工智能的年代已經來臨。作為人類的我們應何去何從?與其與機械人比拼競爭,不如與它們合作共存。在市場學上推崇「藍海策略」(Blue Ocean Strategy),意指跨越現有競爭的邊界,拓展未存在的領域,創造新的價值與需求。
Thumbnail
《台北國際數位廣告節》(TIDAF)第二場演講,由三立集團創造智能科技的總監吳榮彬(Abin Wu)分享,根據調查,近年來全球的虛擬人市場以年增長率44.7%肉眼可見的增長,在未來具有可觀的收益,也幾乎全產業滲透
Thumbnail
《台北國際數位廣告節》(TIDAF)第二場演講,由三立集團創造智能科技的總監吳榮彬(Abin Wu)分享,根據調查,近年來全球的虛擬人市場以年增長率44.7%肉眼可見的增長,在未來具有可觀的收益,也幾乎全產業滲透
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
一家名為Figure的新創公司於本週三發布了一段令人印象深刻的影片,展示了他們與OpenAI合作後的最新成果。在這段影片中,名為Figure 01的人形機器人展示了與人類的交流能力和任務執行能力。 影片中,Figure 01機器人被要求執行各種任務,例如回應一般性的指令,如提供食物或清理垃圾。
Thumbnail
一家名為Figure的新創公司於本週三發布了一段令人印象深刻的影片,展示了他們與OpenAI合作後的最新成果。在這段影片中,名為Figure 01的人形機器人展示了與人類的交流能力和任務執行能力。 影片中,Figure 01機器人被要求執行各種任務,例如回應一般性的指令,如提供食物或清理垃圾。
Thumbnail
科幻電影描繪的場景即將成真?AI機器人問世?
Thumbnail
科幻電影描繪的場景即將成真?AI機器人問世?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News