Google 推出 Gemini Robotics-ER 1.5：為通用機器人打造一顆會「思考」的大腦

2025/09/26 更新2025/09/26 發佈閱讀 7 分鐘

長期以來，我們對於能夠處理家務、協助工作的智慧機器人，總有著無限的想像。然而，一個機器人要能夠在我們混亂的廚房中準確地分類垃圾，或是在變動的倉儲環境裡重新整理貨物，它需要的遠不只是一雙「眼睛」和一雙「手」，更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。

過去，開發者必須為機器人的每一個動作、每一個決策，撰寫鉅細靡遺的程式碼，過程極其繁瑣。而 Google 近期釋出了名為「Gemini Robotics-ER 1.5」的全新 AI 模型，試圖解決這個問題。

Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 懶人包

簡單來說，Gemini Robotics-ER 1.5。你可以把它想像成一個專為機器人應用而優化的 Gemini 版本。

它的核心定位並不是直接控制馬達轉動或夾爪開合的底層操作系統，而是扮演一個更高層級的「大腦」或「指揮官」角色。當你用一句自然語言下達一個複雜指令，例如「幫我把桌子整理乾淨，並根據本地的規定把垃圾分類好」，Gemini Robotics-ER 1.5 的任務就是：

理解指令：聽懂你模糊的、高層次的需求。
拆解任務：將「整理桌子」和「分類垃圾」拆解成一系列可執行的步驟。
調用工具：它可能會呼叫 Google 搜尋來查詢本地的垃圾分類規則，接著再呼叫機器人本身的視覺模型來辨識物品，最後再依序呼叫機器手臂的控制 API 來完成拾取、移動、放置等動作。
監控進度：理解任務是否完成，並依據環境變化做出調整。

開發者未來將能夠更專注於機器人的硬體設計與底層能力的建構，而將複雜的任務規劃與世界理解，交給像 Gemini Robotics-ER 1.5 這樣強大的 AI 大腦。

Gemini Robotics-ER 1.5：不只是會看，更是會「思考」的機器人之腦

具身推理 (Embodied Reasoning)：從理解、規劃到協調執行

傳統的機器人視覺模型，強項在於「辨識」，也就是回答「這張圖片裡有什麼？」的問題。但 Gemini Robotics-ER 1.5 的核心是「具身推理 (Embodied Reasoning)」，它要回答的是「我該如何與這些東西互動來完成目標？」。

這代表模型不僅認識眼前的香蕉皮、紙盒和寶特瓶，它還能理解「分類」這個抽象概念。當接收到指令後，它會自主規劃出一個行動序列：首先，需要上網查詢本地回收指南；接著，逐一辨識桌上的物品；然後，將辨識結果與回收指南進行比對；最後，生成指令讓機器手臂將它們放入對應的垃圾桶。這個從理解、規劃到協調執行的完整過程，正是「具身推理」的精髓所在。

像人一樣理解空間：從「看到」到「定位」的精準視覺能力

要讓機器人在物理世界中有效運作，光是辨識出「杯子」在哪裡還不夠，它必須精確知道杯子的座標，才能讓手臂準確抓取。Gemini Robotics-ER 1.5 特別在空間理解能力上改進，展現了幾項令人印象深刻的能力：

精準 2D 定位：模型能夠在圖片或影片中，以極高的精度生成物體的 2D 座標點。開發者可以輕鬆地將這些 2D 座標與機器人自身的 3D 感測器（如深度攝影機）數據結合，換算出物體在三維空間中的準確位置。
時間序列理解：透過分析連續的影像，模型能夠理解任務的時序關係。例如，它可以準確描述出「機器手臂在 2 秒到 13 秒之間，將綠色馬克筆放入了木盤中」這樣的動態過程。
軌跡規劃：不僅能定位物體，它還能生成一連串的座標點，為機器人的運動規劃出合理的軌跡。例如，當被要求「關上咖啡機的蓋子」時，模型能輸出一系列座標點，描繪出蓋子把手應遵循的弧形路徑。

串連世界的「大腦中樞」：原生工具呼叫與彈性思考預算

Gemini Robotics-ER 1.5 最強大的地方在於它的「開放性」與「靈活性」。它被設計成一個協調者，一個能夠調度千軍萬馬的大腦中樞。

原生工具呼叫 (Function Calling)：這是它的核心能力之一。模型可以直接呼叫外部的 API 或開發者自訂的函式。這代表它可以連接 Google 搜尋、各類型的視覺分析模型，甚至是機器人硬體本身提供的任何 API 。這讓它成為一個可以整合既有工具的平台，而不是一個封閉的系統。
彈性思考預算 (Flexible thinking budget)：這是一個非常實用的功能。開發者可以直接控制模型在回答問題前的「思考時間」。對於需要即時反應的簡單任務（如辨識眼前的物體），可以設定較低的預算以獲得極快的回應；對於需要深思熟慮的複雜任務（如規劃一個多步驟的組裝流程），則可以給予更高的預算，讓模型花更多時間計算，以換取更準確、更可靠的計畫，巧妙地平衡了現實世界中對速度與精度的雙重需求。

TN科技筆記的觀點

可以看出 Google 暫時不急著打造特定形態的機器人硬體，而是專注於提供最關鍵的「大腦」。Gemini Robotics-ER 1.5 的核心是扮演一個開放的「協調者」，透過強大的工具呼叫能力來與任何開發者的硬體、軟體模組進行整合。這是一種平台化的思維，遠程目標或許是設定為成為未來機器人時代的「Android」或「Windows」。
在真實世界中，並非所有任務都需要最高的精密度，速度與成本同樣重要，「彈性思考預算」這個功能看似微小，卻充滿工程務實主義。將這個控制權交給開發者，讓他們能依據具體應用場景進行權衡，讓模型能夠成為在產業中落地的工具。
Google 所有展示的案例，無論是整理書桌還是泡咖啡，看起來都是在光線充足、物品清晰的控制環境中進行。但真實的家庭或工廠環境必定充滿著預料之外的遮擋、光影變化、以及各種突發狀況。模型之後是否能在這些混亂、高動態環境下的穩定性與可靠性，仍有待大規模的驗證。