Google Deepmind的雙子座機器人技術:釋放具有零射擊和增強空間推理的體現的AI

Google DeepMind在Robotics AI中打破了常規界限,並在Gemini Robotics的揭幕中覆蓋了,這是一套建立在Gemini 2.0基礎上的模型。這不僅僅是一個增量升級;這是一個範式的轉變,具有前所未有的“體現推理”功能,將AI從數字領域推向了有形的世界。

雙子座機器人技術:彌合數字智能與物理動作之間的差距

雙子座機器人技術是這項創新的核心,這是一種超越傳統AI限制的高級視覺語言行動(VLA)模型。通過將物理動作作為直接輸出模式引入,雙子座機器人能夠使機器人能夠自主執行任務,並以前無法實現的理解和適應性水平。補充這是Gemini Robotics-ER(體現推理),這是一種專門設計的模型,該模型旨在完善空間理解,使機器人主義者能夠將Gemini的認知能力無縫地整合到現有的機器人體系結構中。

這些模型預示著機器人技術的新時代,有望釋放各種各樣的現實應用程序。 Google DeepMind與Apptronik等行業領導者的戰略夥伴關係,將Gemini 2.0集成到人形機器人機器人中,並與受信任的測試人員合作,強調了這項技術的變革潛力。

關鍵技術進步:

  • 無與倫比的一般性: Gemini Robotics利用Gemini的強大世界模型在跨新型場景中概括,與最先進的VLA模型相比,在嚴格的概括基准上實現了卓越的性能。
  • 直觀的互動: 該模型建立在Gemini 2.0的語言理解的基礎上,通過自然語言命令促進了流體的人類機器人互動,動態適應環境變化和用戶輸入。
  • 高級敏捷: 該模型表現出顯著的靈活性,執行複雜的操縱任務,例如摺紙折疊和復雜的對象處理,展示了機器人精細運動控制的顯著飛躍。
  • 多功能體現: 雙子座機器人的適應能力擴展到各種機器人平台,從Aloha 2和Franka Arms等雙臂系統到Apptronik的Apollo等先進的人形機器人。

雙子座機器人:開創性的空間智能

Gemini Robotics-ER提高了空間推理,這是有效機器人操作的關鍵組成部分。通過增強諸如指向,3D對象檢測和空間理解之類的功能,該模型使機器人能夠以提高精度和效率執行任務。

Gemini 2.0:啟用零和少數機器人控制

Gemini 2.0的一個定義特徵是它促進零和少量機器人控制的能力。這消除了對廣泛的機器人動作數據培訓的需求,使機器人可以“開箱即用”執行複雜的任務。通過將感知,狀態估計,空間推理,計劃和控制統一在單個模型中,Gemini 2.0超過了以前的多模型方法。

  • 通過代碼生成零射擊控制: Gemini Robotics-ER利用其代碼生成功能和體現的推理使用API​​命令來控制機器人,根據需要進行反應和重新啟動。與Gemini 2.0相比,該模型增強的體現理解會導致任務完成的接近2倍。
  • 通過封閉式學習(ICL)幾乎沒有控制: 通過在少量演示中調節模型,Gemini Robotics-ER可以快速適應新的行為。

以下是情節期間的感知和控制API和代理編排。該系統用於零拍控制:

對安全的承諾

Google DeepMind通過多層方法將安全性優先考慮,從而解決了從低級運動控製到高級語義理解的擔憂。 Gemini Robotics-ER與現有的安全關鍵控制器的整合以及防止不安全行動的機制的發展強調了這一承諾。

Asimov數據集的發布和生成數據驅動的“機器人憲法”的框架進一步展示了Google DeepMind致力於推進機器人安全研究。

智能機器人越來越近了……


查看 完整的雙子座機器人報告 雙子座機器人技術 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數


讓·馬克(Jean-Marc)是一位成功的AI業務主管。他領導並加速了AI Power的解決方案的增長,並於2006年創立了一家計算機視覺公司。他是AI會議的公認發言人,並擁有斯坦福大學的MBA學位。

PARLANT:使用LLMS💬💬(晉升)建立可靠的AI AI客戶面對面的代理商

Source link

Scroll to Top