Google Deepmind的雙子座機器人技術：釋放具有零射擊和增強空間推理的體現的AI

March 14, 2025

Dr. Ashish V

Google DeepMind在Robotics AI中打破了常規界限，並在Gemini Robotics的揭幕中覆蓋了，這是一套建立在Gemini 2.0基礎上的模型。這不僅僅是一個增量升級；這是一個範式的轉變，具有前所未有的“體現推理”功能，將AI從數字領域推向了有形的世界。

雙子座機器人技術：彌合數字智能與物理動作之間的差距

雙子座機器人技術是這項創新的核心，這是一種超越傳統AI限制的高級視覺語言行動（VLA）模型。通過將物理動作作為直接輸出模式引入，雙子座機器人能夠使機器人能夠自主執行任務，並以前無法實現的理解和適應性水平。補充這是Gemini Robotics-ER（體現推理），這是一種專門設計的模型，該模型旨在完善空間理解，使機器人主義者能夠將Gemini的認知能力無縫地整合到現有的機器人體系結構中。

這些模型預示著機器人技術的新時代，有望釋放各種各樣的現實應用程序。 Google DeepMind與Apptronik等行業領導者的戰略夥伴關係，將Gemini 2.0集成到人形機器人機器人中，並與受信任的測試人員合作，強調了這項技術的變革潛力。

關鍵技術進步：

無與倫比的一般性： Gemini Robotics利用Gemini的強大世界模型在跨新型場景中概括，與最先進的VLA模型相比，在嚴格的概括基准上實現了卓越的性能。
直觀的互動： 該模型建立在Gemini 2.0的語言理解的基礎上，通過自然語言命令促進了流體的人類機器人互動，動態適應環境變化和用戶輸入。
高級敏捷： 該模型表現出顯著的靈活性，執行複雜的操縱任務，例如摺紙折疊和復雜的對象處理，展示了機器人精細運動控制的顯著飛躍。
多功能體現： 雙子座機器人的適應能力擴展到各種機器人平台，從Aloha 2和Franka Arms等雙臂系統到Apptronik的Apollo等先進的人形機器人。

雙子座機器人：開創性的空間智能

Gemini Robotics-ER提高了空間推理，這是有效機器人操作的關鍵組成部分。通過增強諸如指向，3D對象檢測和空間理解之類的功能，該模型使機器人能夠以提高精度和效率執行任務。

Gemini 2.0：啟用零和少數機器人控制

Gemini 2.0的一個定義特徵是它促進零和少量機器人控制的能力。這消除了對廣泛的機器人動作數據培訓的需求，使機器人可以“開箱即用”執行複雜的任務。通過將感知，狀態估計，空間推理，計劃和控制統一在單個模型中，Gemini 2.0超過了以前的多模型方法。

通過代碼生成零射擊控制： Gemini Robotics-ER利用其代碼生成功能和體現的推理使用API命令來控制機器人，根據需要進行反應和重新啟動。與Gemini 2.0相比，該模型增強的體現理解會導致任務完成的接近2倍。
通過封閉式學習（ICL）幾乎沒有控制： 通過在少量演示中調節模型，Gemini Robotics-ER可以快速適應新的行為。

以下是情節期間的感知和控制API和代理編排。該系統用於零拍控制：