Google 推出 Gemini Robotics-ER 1.5:為通用機器人打造一顆會「思考」的大腦

更新 發佈閱讀 7 分鐘

長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。

過去,開發者必須為機器人的每一個動作、每一個決策,撰寫鉅細靡遺的程式碼,過程極其繁瑣。而 Google 近期釋出了名為「Gemini Robotics-ER 1.5」的全新 AI 模型,試圖解決這個問題。

Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5

raw-image


Gemini Robotics-ER 1.5 懶人包

簡單來說,Gemini Robotics-ER 1.5。你可以把它想像成一個專為機器人應用而優化的 Gemini 版本。

它的核心定位並不是直接控制馬達轉動或夾爪開合的底層操作系統,而是扮演一個更高層級的「大腦」或「指揮官」角色。當你用一句自然語言下達一個複雜指令,例如「幫我把桌子整理乾淨,並根據本地的規定把垃圾分類好」,Gemini Robotics-ER 1.5 的任務就是:

  1. 理解指令:聽懂你模糊的、高層次的需求。
  2. 拆解任務:將「整理桌子」和「分類垃圾」拆解成一系列可執行的步驟。
  3. 調用工具:它可能會呼叫 Google 搜尋來查詢本地的垃圾分類規則,接著再呼叫機器人本身的視覺模型來辨識物品,最後再依序呼叫機器手臂的控制 API 來完成拾取、移動、放置等動作。
  4. 監控進度:理解任務是否完成,並依據環境變化做出調整。

開發者未來將能夠更專注於機器人的硬體設計與底層能力的建構,而將複雜的任務規劃與世界理解,交給像 Gemini Robotics-ER 1.5 這樣強大的 AI 大腦。

Gemini Robotics-ER 1.5:不只是會看,更是會「思考」的機器人之腦

具身推理 (Embodied Reasoning):從理解、規劃到協調執行

傳統的機器人視覺模型,強項在於「辨識」,也就是回答「這張圖片裡有什麼?」的問題。但 Gemini Robotics-ER 1.5 的核心是「具身推理 (Embodied Reasoning)」,它要回答的是「我該如何與這些東西互動來完成目標?」。

這代表模型不僅認識眼前的香蕉皮、紙盒和寶特瓶,它還能理解「分類」這個抽象概念。當接收到指令後,它會自主規劃出一個行動序列:首先,需要上網查詢本地回收指南;接著,逐一辨識桌上的物品;然後,將辨識結果與回收指南進行比對;最後,生成指令讓機器手臂將它們放入對應的垃圾桶。這個從理解、規劃到協調執行的完整過程,正是「具身推理」的精髓所在。

像人一樣理解空間:從「看到」到「定位」的精準視覺能力

要讓機器人在物理世界中有效運作,光是辨識出「杯子」在哪裡還不夠,它必須精確知道杯子的座標,才能讓手臂準確抓取。Gemini Robotics-ER 1.5 特別在空間理解能力上改進,展現了幾項令人印象深刻的能力:

  • 精準 2D 定位:模型能夠在圖片或影片中,以極高的精度生成物體的 2D 座標點。開發者可以輕鬆地將這些 2D 座標與機器人自身的 3D 感測器(如深度攝影機)數據結合,換算出物體在三維空間中的準確位置。
  • 時間序列理解:透過分析連續的影像,模型能夠理解任務的時序關係。例如,它可以準確描述出「機器手臂在 2 秒到 13 秒之間,將綠色馬克筆放入了木盤中」這樣的動態過程。
  • 軌跡規劃:不僅能定位物體,它還能生成一連串的座標點,為機器人的運動規劃出合理的軌跡。例如,當被要求「關上咖啡機的蓋子」時,模型能輸出一系列座標點,描繪出蓋子把手應遵循的弧形路徑。

串連世界的「大腦中樞」:原生工具呼叫與彈性思考預算

Gemini Robotics-ER 1.5 最強大的地方在於它的「開放性」與「靈活性」。它被設計成一個協調者,一個能夠調度千軍萬馬的大腦中樞。

  • 原生工具呼叫 (Function Calling):這是它的核心能力之一。模型可以直接呼叫外部的 API 或開發者自訂的函式。這代表它可以連接 Google 搜尋、各類型的視覺分析模型,甚至是機器人硬體本身提供的任何 API 。這讓它成為一個可以整合既有工具的平台,而不是一個封閉的系統。
  • 彈性思考預算 (Flexible thinking budget):這是一個非常實用的功能。開發者可以直接控制模型在回答問題前的「思考時間」。對於需要即時反應的簡單任務(如辨識眼前的物體),可以設定較低的預算以獲得極快的回應;對於需要深思熟慮的複雜任務(如規劃一個多步驟的組裝流程),則可以給予更高的預算,讓模型花更多時間計算,以換取更準確、更可靠的計畫,巧妙地平衡了現實世界中對速度與精度的雙重需求。

TN科技筆記的觀點

  • 可以看出 Google 暫時不急著打造特定形態的機器人硬體,而是專注於提供最關鍵的「大腦」。Gemini Robotics-ER 1.5 的核心是扮演一個開放的「協調者」,透過強大的工具呼叫能力來與任何開發者的硬體、軟體模組進行整合。這是一種平台化的思維,遠程目標或許是設定為成為未來機器人時代的「Android」或「Windows」。
  • 在真實世界中,並非所有任務都需要最高的精密度,速度與成本同樣重要,「彈性思考預算」這個功能看似微小,卻充滿工程務實主義。將這個控制權交給開發者,讓他們能依據具體應用場景進行權衡,讓模型能夠成為在產業中落地的工具。
  • Google 所有展示的案例,無論是整理書桌還是泡咖啡,看起來都是在光線充足、物品清晰的控制環境中進行。但真實的家庭或工廠環境必定充滿著預料之外的遮擋、光影變化、以及各種突發狀況。模型之後是否能在這些混亂、高動態環境下的穩定性與可靠性,仍有待大規模的驗證。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
70會員
219內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
2025/09/18
OpenAI 也發表迄今為止規模最大的 ChatGPT 消費者使用研究,基於對超過 150 萬筆對話的隱私保護分析,首次用數據揭曉 ChatGPT 的真實面貌。
Thumbnail
2025/09/18
OpenAI 也發表迄今為止規模最大的 ChatGPT 消費者使用研究,基於對超過 150 萬筆對話的隱私保護分析,首次用數據揭曉 ChatGPT 的真實面貌。
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
這篇文章總結了各種類型的機器人,包括人形機器人、機器狗、家用機器人和聊天機器人。同時,也提到了一些討論點和機器人可能的未來方向。
Thumbnail
這篇文章總結了各種類型的機器人,包括人形機器人、機器狗、家用機器人和聊天機器人。同時,也提到了一些討論點和機器人可能的未來方向。
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
在工作中,您常會有需要處理繁雜事項的困擾嗎? 希望能有提高工作效率甚至收益的工具嗎? GeniAltX是一款生成式AI對話機器人,這款生成式AI機器人能做到高品質回覆、極高標準的資安防護、多平臺串接等功能,讓你輕鬆管理所有渠道訊息,立即了解AI機器人能如何幫助你提升工作效率!
Thumbnail
在工作中,您常會有需要處理繁雜事項的困擾嗎? 希望能有提高工作效率甚至收益的工具嗎? GeniAltX是一款生成式AI對話機器人,這款生成式AI機器人能做到高品質回覆、極高標準的資安防護、多平臺串接等功能,讓你輕鬆管理所有渠道訊息,立即了解AI機器人能如何幫助你提升工作效率!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News