阿里巴巴旗下 Qwen(通義千問)宣布成立「機器人/具身智能」研發團隊,正式把大模型推進「會動的 AI」時代。本文將用四個段落,帶你理解這則新聞的重點、發展脈絡、什麼是「具身大模型」、以及它對產業與台灣的啟示。
🌐 新聞重點:阿里要讓 AI「長出手腳」
2025 年 10 月 9 日,阿里巴巴旗下的 Qwen(通義千問)對外宣布,成立一個專門的「機器人/具身智能」小組。這個新團隊的使命,並不是單純升級模型的算力或參數,而是讓 AI 不再只是停留在雲端、在螢幕上回覆你,而是能夠真的「走下雲端」,具備行動力,進入物理世界。
換句話說,阿里的計畫是讓大模型不只是「會說話的聊天機器人」,而是進化為「能做事的助手」。從能看圖、能理解語音,進一步到「能抓取東西、能移動、能與環境互動」。這正是所謂的 「具身智能」(Embodied Intelligence)。這個消息立刻引起外界關注。因為它代表中國互聯網巨頭們已經不滿足於大模型的語言戰場,而是開始搶攻下一個 AI 前沿:讓 AI 進入工廠、倉庫、家庭,甚至走上街頭。這與國際趨勢高度契合——Google 的 RT-2、NVIDIA 的 GR00T、特斯拉的 Optimus,都在做類似的事。
阿里之前也有一些蛛絲馬跡:2025 年 9 月,阿里雲領投了一家叫「自變量機器人」的新創,投入超過 10 億人民幣,對方的核心產品就是「通用具身大模型」與「機器人平台」。這等於提前卡位,把上游技術與硬體合作夥伴綁進生態。如今 Qwen 公布自研團隊,形成「投資+自研」雙管齊下的局面。
從市場氛圍來看,這個宣布的時機點也很巧妙。因為就在 2024–2025 年,全球 AI 社群都在談「Physical AI(物理人工智慧)」:NVIDIA 在 GTC 上推出了專為人形機器人打造的基座模型 GR00T,Google DeepMind 的 RT-2 展示了如何把網路上的知識轉換成實體操作,而中國的人形機器人製造商也在成本與量產上加速。阿里的加入,意味著競爭已經進入「生態對抗」的新階段。
📅 背後脈絡:大模型走向「能行動」的時間線
要理解阿里這一步的重要性,我們得把時間線拉長來看。
第一階段:2023 年,語言模型爆發。
ChatGPT 帶來全球性震盪,阿里也在這一年推出了自家大模型「通義千問」,與百度、科大訊飛一起加入中國的大模型戰局。這個階段的重點是「會說話」,模型能看圖、能回答問題,但仍停留在語言與文字世界。
第二階段:2024 年,走向「會做事」。
Google DeepMind 發表 RT-2,能把文字指令轉換成機器人操作。NVIDIA 推出 Project GR00T 與 Jetson Thor,定義了「為人形機器人打造的基座模型+硬體算力模組」。這些舉動,都顯示大模型必須走出實驗室,進入機械、電腦視覺與感測器的領域。
第三階段:2025 年,中國硬體加速。
中國大量人形機器人原型在展會亮相,並快速壓低成本。這對「具身智能」至關重要,因為訓練一個能與環境互動的模型,需要成千上萬次的真實世界數據,而這必須仰賴大量、便宜、可用的機器人硬體來完成。
第四階段:2025 年 9 月,阿里投資鋪路。
阿里雲領投「自變量機器人」,鎖定的就是「具身大模型」與「通用平台」。這一步相當於先把「硬體試驗田」準備好。
第五階段:2025 年 10 月 9 日,Qwen 公布團隊。
從外部投資到內部成立團隊,阿里正式把「模型→智能體→具身智能」的三段路線打通。它要做的,不一定是造一台整機人形機器人,而是提供一個 「能思考、能規劃、能驅動機器」的 AI 核心,再交給合作廠商做各種應用。
從這條時間線來看,阿里的布局並不是突如其來,而是早有鋪陳。
🤔 補充說明:什麼是「具身大模型」?
讀到這裡,很多人可能會好奇:「具身大模型」到底跟一般的 ChatGPT 或 Qwen 有什麼不同?
第一,資料來源不同。
一般大模型讀的是文字、圖片、影音;具身大模型還要讀「動作資料」與「感測器資料」。例如手抓東西時的力道回饋、機器人走路時的關節角度、環境中的 3D 深度影像。這些資料讓模型能理解「怎麼做」而不只是「怎麼說」。
第二,目標不同。
普通大模型的目標是「輸出一句正確的文字答案」;具身大模型的目標是「完成任務」。例如當你說「幫我把桌上的杯子拿過來」,它要能規劃路徑、避開障礙、伸手抓取,再放到桌上。這裡需要長時序推理與即時調整,是完全不同的挑戰。
第三,系統架構不同。
聊天模型主要跑在雲端伺服器;具身智能需要「邊緣+雲端」協同。因為機器人要即時反應(例如避免摔倒),延遲不能太高,所以必須在本地運算(像 NVIDIA Jetson Thor)。而長期策略與模型更新,則由雲端處理。
阿里的優勢在於:
- 有 Qwen 的多模態大模型,能做語言、圖像與推理。
- 有 阿里雲的算力與平台,能提供邊雲協同。
- 還能結合 中國龐大的硬體製造鏈,快速落地大量機器人,形成資料閉環。
但挑戰也不小:
- 可靠性與安全性:機器人不能只在 demo 成功,要能長時間穩定工作。
- 成本與通用性:如何讓具身智能真正落地在物流、工廠、零售等場景,而不只是展示。
- 國際生態競爭:NVIDIA、Google 等國際巨頭的工具鏈與社群成熟,阿里如何接軌仍是問題。
總之,「具身大模型」就是要讓 AI 不只停留在「嘴巴」,而是能用「手腳」去實際完成任務。
📌 結語:下一步會發生什麼?
阿里 Qwen 成立具身智能團隊,意義不僅是「中國又多了一個機器人玩家」,而是整個產業正進入 「AI 從雲端走到地面」 的新篇章。
對阿里來說,它的定位是「做平台」而不是「做整機」。也就是說,它更可能提供 AI SDK、智能體內核、算力服務,讓合作夥伴(例如倉儲機器人廠、教育機器人廠)去整合,這跟 NVIDIA 的「平台+生態」思路有點相似。
對全球產業來說,這是一個新的戰場:誰能掌握資料閉環,誰就能做出真正會學習、會行動的機器人。而這需要軟體、硬體、雲端的長期協作。
對台灣供應鏈來說,機會也很明顯。人形與具身智能機器人需要大量零組件:高扭矩伺服馬達、減速機、力矩感測器、3D 相機、邊緣運算板、電池模組、連接器等,這些正是台灣有優勢的領域。如果能與國際平台(如 NVIDIA Thor、ROS 社群)以及中國應用場景連結,台灣完全有機會成為關鍵供應商。
最後,如果你也想在科技浪潮裡找到真正有價值的趨勢,而不是只看表面熱鬧,歡迎追蹤 Mech Muse 🙌。下一篇,我將整理一份「具身大模型技術樹」,用圖表帶大家一次看懂資料、模型、硬體之間的關係。




















