Google 推出 Gemini Robotics-ER 1.5:為通用機器人打造一顆會「思考」的大腦

更新 發佈閱讀 7 分鐘

長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。

過去,開發者必須為機器人的每一個動作、每一個決策,撰寫鉅細靡遺的程式碼,過程極其繁瑣。而 Google 近期釋出了名為「Gemini Robotics-ER 1.5」的全新 AI 模型,試圖解決這個問題。

Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5

raw-image


Gemini Robotics-ER 1.5 懶人包

簡單來說,Gemini Robotics-ER 1.5。你可以把它想像成一個專為機器人應用而優化的 Gemini 版本。

它的核心定位並不是直接控制馬達轉動或夾爪開合的底層操作系統,而是扮演一個更高層級的「大腦」或「指揮官」角色。當你用一句自然語言下達一個複雜指令,例如「幫我把桌子整理乾淨,並根據本地的規定把垃圾分類好」,Gemini Robotics-ER 1.5 的任務就是:

  1. 理解指令:聽懂你模糊的、高層次的需求。
  2. 拆解任務:將「整理桌子」和「分類垃圾」拆解成一系列可執行的步驟。
  3. 調用工具:它可能會呼叫 Google 搜尋來查詢本地的垃圾分類規則,接著再呼叫機器人本身的視覺模型來辨識物品,最後再依序呼叫機器手臂的控制 API 來完成拾取、移動、放置等動作。
  4. 監控進度:理解任務是否完成,並依據環境變化做出調整。

開發者未來將能夠更專注於機器人的硬體設計與底層能力的建構,而將複雜的任務規劃與世界理解,交給像 Gemini Robotics-ER 1.5 這樣強大的 AI 大腦。

Gemini Robotics-ER 1.5:不只是會看,更是會「思考」的機器人之腦

具身推理 (Embodied Reasoning):從理解、規劃到協調執行

傳統的機器人視覺模型,強項在於「辨識」,也就是回答「這張圖片裡有什麼?」的問題。但 Gemini Robotics-ER 1.5 的核心是「具身推理 (Embodied Reasoning)」,它要回答的是「我該如何與這些東西互動來完成目標?」。

這代表模型不僅認識眼前的香蕉皮、紙盒和寶特瓶,它還能理解「分類」這個抽象概念。當接收到指令後,它會自主規劃出一個行動序列:首先,需要上網查詢本地回收指南;接著,逐一辨識桌上的物品;然後,將辨識結果與回收指南進行比對;最後,生成指令讓機器手臂將它們放入對應的垃圾桶。這個從理解、規劃到協調執行的完整過程,正是「具身推理」的精髓所在。

像人一樣理解空間:從「看到」到「定位」的精準視覺能力

要讓機器人在物理世界中有效運作,光是辨識出「杯子」在哪裡還不夠,它必須精確知道杯子的座標,才能讓手臂準確抓取。Gemini Robotics-ER 1.5 特別在空間理解能力上改進,展現了幾項令人印象深刻的能力:

  • 精準 2D 定位:模型能夠在圖片或影片中,以極高的精度生成物體的 2D 座標點。開發者可以輕鬆地將這些 2D 座標與機器人自身的 3D 感測器(如深度攝影機)數據結合,換算出物體在三維空間中的準確位置。
  • 時間序列理解:透過分析連續的影像,模型能夠理解任務的時序關係。例如,它可以準確描述出「機器手臂在 2 秒到 13 秒之間,將綠色馬克筆放入了木盤中」這樣的動態過程。
  • 軌跡規劃:不僅能定位物體,它還能生成一連串的座標點,為機器人的運動規劃出合理的軌跡。例如,當被要求「關上咖啡機的蓋子」時,模型能輸出一系列座標點,描繪出蓋子把手應遵循的弧形路徑。

串連世界的「大腦中樞」:原生工具呼叫與彈性思考預算

Gemini Robotics-ER 1.5 最強大的地方在於它的「開放性」與「靈活性」。它被設計成一個協調者,一個能夠調度千軍萬馬的大腦中樞。

  • 原生工具呼叫 (Function Calling):這是它的核心能力之一。模型可以直接呼叫外部的 API 或開發者自訂的函式。這代表它可以連接 Google 搜尋、各類型的視覺分析模型,甚至是機器人硬體本身提供的任何 API 。這讓它成為一個可以整合既有工具的平台,而不是一個封閉的系統。
  • 彈性思考預算 (Flexible thinking budget):這是一個非常實用的功能。開發者可以直接控制模型在回答問題前的「思考時間」。對於需要即時反應的簡單任務(如辨識眼前的物體),可以設定較低的預算以獲得極快的回應;對於需要深思熟慮的複雜任務(如規劃一個多步驟的組裝流程),則可以給予更高的預算,讓模型花更多時間計算,以換取更準確、更可靠的計畫,巧妙地平衡了現實世界中對速度與精度的雙重需求。

TN科技筆記的觀點

  • 可以看出 Google 暫時不急著打造特定形態的機器人硬體,而是專注於提供最關鍵的「大腦」。Gemini Robotics-ER 1.5 的核心是扮演一個開放的「協調者」,透過強大的工具呼叫能力來與任何開發者的硬體、軟體模組進行整合。這是一種平台化的思維,遠程目標或許是設定為成為未來機器人時代的「Android」或「Windows」。
  • 在真實世界中,並非所有任務都需要最高的精密度,速度與成本同樣重要,「彈性思考預算」這個功能看似微小,卻充滿工程務實主義。將這個控制權交給開發者,讓他們能依據具體應用場景進行權衡,讓模型能夠成為在產業中落地的工具。
  • Google 所有展示的案例,無論是整理書桌還是泡咖啡,看起來都是在光線充足、物品清晰的控制環境中進行。但真實的家庭或工廠環境必定充滿著預料之外的遮擋、光影變化、以及各種突發狀況。模型之後是否能在這些混亂、高動態環境下的穩定性與可靠性,仍有待大規模的驗證。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
53會員
174內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
2025/09/18
OpenAI 也發表迄今為止規模最大的 ChatGPT 消費者使用研究,基於對超過 150 萬筆對話的隱私保護分析,首次用數據揭曉 ChatGPT 的真實面貌。
Thumbnail
2025/09/18
OpenAI 也發表迄今為止規模最大的 ChatGPT 消費者使用研究,基於對超過 150 萬筆對話的隱私保護分析,首次用數據揭曉 ChatGPT 的真實面貌。
Thumbnail
看更多
你可能也想看
Thumbnail
結婚是一個重大的決定,而辦婚禮更是一件耗時間耗心力又得花大錢的事。但這可是小豬和小蝸一生一次的重大決定,就算沒有太多錢,也不想失去該有的質感怎麼辦? 今天就來開箱小豬和小蝸的婚禮,和大家分享我們怎麼用少少的錢買到那些不可或缺的東西。當然是靠蝦皮購物啊!!!
Thumbnail
結婚是一個重大的決定,而辦婚禮更是一件耗時間耗心力又得花大錢的事。但這可是小豬和小蝸一生一次的重大決定,就算沒有太多錢,也不想失去該有的質感怎麼辦? 今天就來開箱小豬和小蝸的婚禮,和大家分享我們怎麼用少少的錢買到那些不可或缺的東西。當然是靠蝦皮購物啊!!!
Thumbnail
分享新家入住與佈置的蝦皮購物好物,包含入厝儀式用品、玄關收納、衣櫥整理等。同時介紹蝦皮「分潤計畫」,教學如何操作並分享聯盟行銷優點,以及雙11購物優惠資訊,鼓勵讀者一同加入賺取額外收入。
Thumbnail
分享新家入住與佈置的蝦皮購物好物,包含入厝儀式用品、玄關收納、衣櫥整理等。同時介紹蝦皮「分潤計畫」,教學如何操作並分享聯盟行銷優點,以及雙11購物優惠資訊,鼓勵讀者一同加入賺取額外收入。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
這篇文章總結了各種類型的機器人,包括人形機器人、機器狗、家用機器人和聊天機器人。同時,也提到了一些討論點和機器人可能的未來方向。
Thumbnail
這篇文章總結了各種類型的機器人,包括人形機器人、機器狗、家用機器人和聊天機器人。同時,也提到了一些討論點和機器人可能的未來方向。
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
在工作中,您常會有需要處理繁雜事項的困擾嗎? 希望能有提高工作效率甚至收益的工具嗎? GeniAltX是一款生成式AI對話機器人,這款生成式AI機器人能做到高品質回覆、極高標準的資安防護、多平臺串接等功能,讓你輕鬆管理所有渠道訊息,立即了解AI機器人能如何幫助你提升工作效率!
Thumbnail
在工作中,您常會有需要處理繁雜事項的困擾嗎? 希望能有提高工作效率甚至收益的工具嗎? GeniAltX是一款生成式AI對話機器人,這款生成式AI機器人能做到高品質回覆、極高標準的資安防護、多平臺串接等功能,讓你輕鬆管理所有渠道訊息,立即了解AI機器人能如何幫助你提升工作效率!
Thumbnail
一家名為Figure的新創公司於本週三發布了一段令人印象深刻的影片,展示了他們與OpenAI合作後的最新成果。在這段影片中,名為Figure 01的人形機器人展示了與人類的交流能力和任務執行能力。 影片中,Figure 01機器人被要求執行各種任務,例如回應一般性的指令,如提供食物或清理垃圾。
Thumbnail
一家名為Figure的新創公司於本週三發布了一段令人印象深刻的影片,展示了他們與OpenAI合作後的最新成果。在這段影片中,名為Figure 01的人形機器人展示了與人類的交流能力和任務執行能力。 影片中,Figure 01機器人被要求執行各種任務,例如回應一般性的指令,如提供食物或清理垃圾。
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News