長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
過去,開發者必須為機器人的每一個動作、每一個決策,撰寫鉅細靡遺的程式碼,過程極其繁瑣。而 Google 近期釋出了名為「Gemini Robotics-ER 1.5」的全新 AI 模型,試圖解決這個問題。
Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5
Gemini Robotics-ER 1.5 懶人包
簡單來說,Gemini Robotics-ER 1.5。你可以把它想像成一個專為機器人應用而優化的 Gemini 版本。
它的核心定位並不是直接控制馬達轉動或夾爪開合的底層操作系統,而是扮演一個更高層級的「大腦」或「指揮官」角色。當你用一句自然語言下達一個複雜指令,例如「幫我把桌子整理乾淨,並根據本地的規定把垃圾分類好」,Gemini Robotics-ER 1.5 的任務就是:
- 理解指令:聽懂你模糊的、高層次的需求。
- 拆解任務:將「整理桌子」和「分類垃圾」拆解成一系列可執行的步驟。
- 調用工具:它可能會呼叫 Google 搜尋來查詢本地的垃圾分類規則,接著再呼叫機器人本身的視覺模型來辨識物品,最後再依序呼叫機器手臂的控制 API 來完成拾取、移動、放置等動作。
- 監控進度:理解任務是否完成,並依據環境變化做出調整。
開發者未來將能夠更專注於機器人的硬體設計與底層能力的建構,而將複雜的任務規劃與世界理解,交給像 Gemini Robotics-ER 1.5 這樣強大的 AI 大腦。
Gemini Robotics-ER 1.5:不只是會看,更是會「思考」的機器人之腦
具身推理 (Embodied Reasoning):從理解、規劃到協調執行
傳統的機器人視覺模型,強項在於「辨識」,也就是回答「這張圖片裡有什麼?」的問題。但 Gemini Robotics-ER 1.5 的核心是「具身推理 (Embodied Reasoning)」,它要回答的是「我該如何與這些東西互動來完成目標?」。
這代表模型不僅認識眼前的香蕉皮、紙盒和寶特瓶,它還能理解「分類」這個抽象概念。當接收到指令後,它會自主規劃出一個行動序列:首先,需要上網查詢本地回收指南;接著,逐一辨識桌上的物品;然後,將辨識結果與回收指南進行比對;最後,生成指令讓機器手臂將它們放入對應的垃圾桶。這個從理解、規劃到協調執行的完整過程,正是「具身推理」的精髓所在。
像人一樣理解空間:從「看到」到「定位」的精準視覺能力
要讓機器人在物理世界中有效運作,光是辨識出「杯子」在哪裡還不夠,它必須精確知道杯子的座標,才能讓手臂準確抓取。Gemini Robotics-ER 1.5 特別在空間理解能力上改進,展現了幾項令人印象深刻的能力:
- 精準 2D 定位:模型能夠在圖片或影片中,以極高的精度生成物體的 2D 座標點。開發者可以輕鬆地將這些 2D 座標與機器人自身的 3D 感測器(如深度攝影機)數據結合,換算出物體在三維空間中的準確位置。
- 時間序列理解:透過分析連續的影像,模型能夠理解任務的時序關係。例如,它可以準確描述出「機器手臂在 2 秒到 13 秒之間,將綠色馬克筆放入了木盤中」這樣的動態過程。
- 軌跡規劃:不僅能定位物體,它還能生成一連串的座標點,為機器人的運動規劃出合理的軌跡。例如,當被要求「關上咖啡機的蓋子」時,模型能輸出一系列座標點,描繪出蓋子把手應遵循的弧形路徑。
串連世界的「大腦中樞」:原生工具呼叫與彈性思考預算
Gemini Robotics-ER 1.5 最強大的地方在於它的「開放性」與「靈活性」。它被設計成一個協調者,一個能夠調度千軍萬馬的大腦中樞。
- 原生工具呼叫 (Function Calling):這是它的核心能力之一。模型可以直接呼叫外部的 API 或開發者自訂的函式。這代表它可以連接 Google 搜尋、各類型的視覺分析模型,甚至是機器人硬體本身提供的任何 API 。這讓它成為一個可以整合既有工具的平台,而不是一個封閉的系統。
- 彈性思考預算 (Flexible thinking budget):這是一個非常實用的功能。開發者可以直接控制模型在回答問題前的「思考時間」。對於需要即時反應的簡單任務(如辨識眼前的物體),可以設定較低的預算以獲得極快的回應;對於需要深思熟慮的複雜任務(如規劃一個多步驟的組裝流程),則可以給予更高的預算,讓模型花更多時間計算,以換取更準確、更可靠的計畫,巧妙地平衡了現實世界中對速度與精度的雙重需求。
TN科技筆記的觀點
- 可以看出 Google 暫時不急著打造特定形態的機器人硬體,而是專注於提供最關鍵的「大腦」。Gemini Robotics-ER 1.5 的核心是扮演一個開放的「協調者」,透過強大的工具呼叫能力來與任何開發者的硬體、軟體模組進行整合。這是一種平台化的思維,遠程目標或許是設定為成為未來機器人時代的「Android」或「Windows」。
- 在真實世界中,並非所有任務都需要最高的精密度,速度與成本同樣重要,「彈性思考預算」這個功能看似微小,卻充滿工程務實主義。將這個控制權交給開發者,讓他們能依據具體應用場景進行權衡,讓模型能夠成為在產業中落地的工具。
- Google 所有展示的案例,無論是整理書桌還是泡咖啡,看起來都是在光線充足、物品清晰的控制環境中進行。但真實的家庭或工廠環境必定充滿著預料之外的遮擋、光影變化、以及各種突發狀況。模型之後是否能在這些混亂、高動態環境下的穩定性與可靠性,仍有待大規模的驗證。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)






















