Технологии
- Опубликовано
- Авторы
Каролина Парада
Представление робототехники Gemini, наша модель Gemini 2.0, предназначенная для робототехники
В Google DeepMind мы добились прогресса в том, как наши модели Близнецов решают сложные проблемы с помощью мультимодальных рассуждений по тексту, изображениям, аудио и видео. Однако до сих пор эти способности были в значительной степени ограничены цифровой сферой. Чтобы ИИ был полезным и полезным для людей в физическом сфере, они должны продемонстрировать «воплощенные» рассуждения – человеческую способность понимать и реагировать на окружающий мир, а также безопасно принять меры, чтобы добиться цели.
Сегодня мы представляем две новые модели ИИ, основанные на Gemini 2.0, которые закладывают основу для нового поколения полезных роботов.
Первым является робототехника Gemini, усовершенствованная модель зрений-языка (VLA), которая была построена на Gemini 2.0 с добавлением физических действий в качестве новой модальности вывода с целью непосредственного управления роботами. Второе-Gemini Robotics-Er, модель Близнецов с расширенным пространственным пониманием, позволяющая роботистам запускать свои собственные программы, используя воплощенные способности Близнецов (ER).
Обе эти модели позволяют множеству роботов выполнять более широкий спектр реальных задач, чем когда-либо прежде. В рамках наших усилий мы сотрудничаем с Applonik, чтобы построить следующее поколение гуманоидных роботов с Gemini 2.0. Мы также работаем с выбранным количеством надежных тестеров, чтобы направлять будущее Gemini Robotics-Er.
Мы с нетерпением ждем возможности изучить возможности наших моделей и продолжать развивать их на пути к реальным приложениям.
Робототехника Близнецов: наша самая продвинутая модель зрения
Чтобы быть полезным и полезным для людей, модели ИИ для робототехники нуждаются в трех основных качествах: они должны быть общими, что означает, что они способны адаптироваться к различным ситуациям; Они должны быть интерактивными, то есть они могут понять и быстро реагировать на инструкции или изменения в своей среде; И они должны быть ловкими, что означает, что они могут делать то, что люди обычно могут делать своими руками и пальцами, как тщательно манипулировать объектами.
В то время как наша предыдущая работа продемонстрировала прогресс в этих областях, робототехника Близнецов представляет собой существенный шаг в производительности на всех трех топорах, что приближается к нам к роботам по -настоящему общей цели.
Общность
Робототехника Близнецов использует мировое понимание Gemini, чтобы обобщить в новые ситуации и решить широкий спектр задач из коробки, включая задачи, которых она никогда не видела в тренировках. Робототехника Близнецов также является искусственным в работе с новыми объектами, разнообразными инструкциями и новыми средами. В нашем техническом отчете мы показываем, что в среднем робототехнику Близнецов более чем удваивают производительность по всестороннему эталону обобщения по сравнению с другими современными моделями, выражающими зрение.
Демонстрация мирового понимания Близнецов Робототехники.
Интерактивность
Чтобы работать в нашем динамичном, физическом мире, роботы должны быть в состоянии беспрепятственно взаимодействовать с людьми и окружающей средой и адаптироваться к изменениям на лету.
Поскольку он построен на основе Gemini 2.0, Gemini Robotics интуитивно интерактивна. Он включает в себя расширенные возможности для понимания языка Близнецов и может понимать и реагировать на команды, сформулированные на повседневном, разговорном языке и на разных языках.
Он может понимать и реагировать на гораздо более широкий набор инструкций естественного языка, чем наши предыдущие модели, адаптируя свое поведение к вашему вводу. Он также непрерывно контролирует свое окружение, обнаруживает изменения в своей среде или инструкциях и соответствующим образом корректирует свои действия. Этот вид контроля, или «управляемость» может лучше помочь людям сотрудничать с помощниками роботов в различных условиях, от дома до рабочего места.
Если объект соскользнул из его рук, или кто -то перемещает предмет, робототехнику Близнецов быстро переигрывает и продолжает – важнейшая способность для роботов в реальном мире, где сюрпризы являются нормой.
Ловкость
Третий ключевой столп для построения полезного робота – это ловкость. Многие повседневные задачи, которые люди выполняют без особых усилий, требуют удивительно тонких моторных навыков и все еще слишком сложны для роботов. Напротив, робототехника Близнецов может решать чрезвычайно сложные, многоэтапные задачи, которые требуют точных манипуляций, таких как складывание оригами или упаковка закуски в сумку Ziploc.
Gemini Robotics демонстрирует расширенные уровни ловкости
Несколько вариантов осуществления
Наконец, поскольку роботы бывают разных форм и размеров, робототехника Близнецов также была разработана, чтобы легко адаптироваться к различным типам роботов. Мы обучили модель в первую очередь на данные с роботизированной платформой BI-армии Aloha 2, но мы также продемонстрировали, что она может контролировать платформу BI-артистики, основанную на вооруженных руках Франка, используемых во многих академических лабораториях. Робототехника Близнецов может быть даже специализирована для более сложных вариантов осуществления, таких как гуманоидный робот Аполлона, разработанный Applonik, с целью выполнения реальных задач.
Робототехника Близнецов работает на разных видах роботов
Улучшение мирового понимания Близнецов
Наряду с робототехникой Близнецов, мы представляем современную модель на языке зрения под названием «Близнецы робототехники-эр» («Короче говоря» для «воплощенных рассуждений»). Эта модель улучшает понимание Близнецов мира способами, необходимыми для робототехники, особенно сосредоточив внимание на пространственных рассуждениях, и позволяет роботистам связывать его со своими существующими контроллерами низкого уровня.
Gemini Robotics-Er улучшает существующие способности Gemini 2.0, такие как указание и трехмерное обнаружение с большим отрывом. Объединяя пространственные рассуждения и способности кодирования Близнецов, Gemini Robotics-Er может создать создание совершенно новых возможностей на лету. Например, когда показана кофейная кружка, модель может интуитивно интуитивно подходит для подъема с двумя пальцами для подбора ручки и безопасной траектории для приближения к нему.
Gemini Robotics-Er может выполнять все шаги, необходимые для управления роботом прямо из коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода. В такой сквозной настройке модель достигает уровня успеха 2X-3X по сравнению с Gemini 2.0. И там, где генерация кода недостаточно, Gemini Robotics-Er может даже использовать силу обучения в контексте, следуя моделям горстки человеческих демонстраций, чтобы обеспечить решение.
Gemini Robotics-Er превосходит воплощенные возможности рассуждения, включая обнаружение объектов и указание на части объекта, поиск соответствующих точек и обнаружение объектов в 3D.
Ответственно продвижение ИИ и робототехники
Поскольку мы исследуем постоянный потенциал ИИ и робототехники, мы используем многоуровневый, целостный подход к решению безопасности в наших исследованиях, от низкоуровневого моторного управления до семантического понимания высокого уровня.
Физическая безопасность роботов и окружающих их людей – это давняя, основополагающая проблема в науке о робототехнике. Вот почему у роботизистов есть классические меры безопасности, такие как избегание столкновений, ограничение величины контактных сил и обеспечение динамической стабильности мобильных роботов. Gemini Robotics-Er может быть связана с этими «низкоуровневыми» критичными контроллерами, специфичными для каждого конкретного варианта. Опираясь на основные функции безопасности Близнецов, мы позволяем моделям Gemini Robotics-Er понять, безопасно ли потенциальное действие для выполнения в данном контексте и генерировать соответствующие ответы.
Чтобы продвинуть исследования безопасности робототехники в академических кругах и промышленности, мы также выпускаем новый набор данных для оценки и повышения семантической безопасности в воплощенном ИИ и робототехнике. В предыдущей работе мы показали, как конституция робота, вдохновленная тремя законами робототехники Исаака Асимова, может помочь подсказывать LLM выбрать более безопасные задачи для роботов. С тех пор мы разработали структуру для автоматического генерации конституций, управляемых данными – правил, выраженными непосредственно на естественном языке, – для управления поведением робота. Эта структура позволит людям создавать, изменять и применять конституции для разработки роботов, которые более безопасны и более соответствующие человеческим ценностям. Наконец, новый набор данных Asimov поможет исследователям строго измерить последствия безопасности роботизированных действий в реальных сценариях.
Чтобы дополнительно оценить социальные последствия нашей работы, мы сотрудничаем с экспертами в нашей группе ответственного развития и инноваций, а также с нашей Советом по ответственности и безопасности, внутренней группе рассмотрения, приверженной обеспечению ответственности за разработку ИИ. Мы также консультируемся с внешними специалистами по конкретным проблемам и возможностям, представленным воплощенным ИИ в приложениях для робототехники.
В дополнение к нашему партнерству с Applonik, наша модель Gemini Robotics-Er также доступна для надежных тестеров, включая гибкие роботы, роботы гибкости, бостонскую динамику и очарованные инструменты. Мы с нетерпением ждем возможности изучить возможности наших моделей и продолжить развитие ИИ для более полезных роботов следующего поколения.
Благодарности
Эта работа была разработана командой по робототехнике Близнецов. Для полного списка авторов и подтверждений, пожалуйста, просмотрите наш технический отчет.