Исследовать
- Опубликовано
- Авторы
Команда Robocat
Новый агент фонда учится управлять различными роботизированными руками, решает задачи от всего 100 демонстраций и улучшается по результатам самого генерируемых данных.
Роботы быстро становятся частью нашей повседневной жизни, но они часто запрограммированы только на выполнение определенных задач. В то время как использование недавних достижений в области искусственного интеллекта может привести к роботам, которые могут помочь во многих других способах, прогресс в создании роботов общего назначения медленнее частично из-за времени, необходимого для сбора реальных учебных данных.
Наша последняя статья представляет самосовершенствовающегося агента искусственного интеллекта для робототехники, Robocat, который учится выполнять различные задачи в разных руках, а затем самообразование новых учебных данных для улучшения его техники.
Предыдущие исследования исследовали, как разрабатывать роботов, которые могут учиться в нескольких задачах в масштабе, и объединить понимание языковых моделей с реальными возможностями помощника помощника. Robocat является первым агентом, который решает и адаптируется к нескольким задачам и выполняет это по разным, настоящим роботам.
Робокат учится намного быстрее, чем другие современные модели. Он может взять новую задачу с лишь 100 демонстрациями, потому что он рисует из большого и разнообразного набора данных. Эта возможность поможет ускорить исследования робототехники, поскольку она снижает необходимость обучения, вызванного человеком, и является важным шагом к созданию робота общего назначения.
Как Robocat улучшается
Robocat основан на нашей мультимодальной модели Gato (испанский для «кошки»), которая может обрабатывать язык, изображения и действия как в моделируемой, так и в физической среде. Мы объединили архитектуру Gato с большим набором учебного набора последовательностей изображений и действий различных роботов, решающих сотни различных задач.
После этого первого раунда обучения мы запустили Robocat в тренировочный цикл «самосовершенствования» с набором ранее невидимых задач. Изучение каждой новой задачи следовало пять шагов:
- Соберите 100-1000 демонстраций новой задачи или робота, используя роботизированную руку, контролируемую человеком.
- Fine-Tune Robocat на этой новой задаче/руке, создав специализированный дополнительный агент.
- Побочный агент практикует эту новую задачу/руку в среднем в 10 000 раз, генерируя больше данных обучения.
- Включите демонстрационные данные и самоогенерированные данные в существующий учебный набор данных Robocat.
- Тренируйте новую версию Robocat на новом наборе данных.
Тренировочный цикл Robocat, повышенный благодаря его способности автономно генерировать дополнительные учебные данные.
Сочетание всего этого обучения означает, что новейший робокат основан на наборе данных из миллионов траекторий, как из реальных, так и моделируемых роботизированных вооружений, включая самоогенерированные данные. Мы использовали четыре различных типа роботов и множество роботизированных вооружений для сбора данных, основанных на зрении, представляющих задачи, которые робокат будут обучены выполнять.
Робокат учится на разнообразных типах обучающих данных и задач: видео с настоящим роботизированным рычагом, собирающим шестерни, моделируемые блоки с укладкой руки и робокат с использованием роботизированной руки, чтобы забрать огурец.
Научиться управлять новыми роботизированными руками и решать более сложные задачи
При разнообразной подготовке Robocat он научился управлять различными роботизированными руками в течение нескольких часов. В то время как он был обучен на руках с двусторонними Grippers, он смог адаптироваться к более сложной руке с захватом с тремя пальцами и в два раза больше управляемых входов.
Левый: Новая роботизированная рука, робокат, научилась контролировать
Верно: Видео Robocat, используя руку, чтобы забрать шестерни
После наблюдения за 1000 демонстраций, контролируемых человеком, собравшимися всего за несколько часов, Robocat может направить эту новую руку достаточно, чтобы успешно собрать шестерни в 86% случаев. С тем же уровнем демонстраций он может адаптироваться к решению задач, которые объединили точность и понимание, такие как удаление правильных плодов из чаши и решение головоломки со соответствием формы, которые необходимы для более сложного контроля.
Примеры задач, которые robocat может адаптироваться к решению после 500-1000 демонстраций.
Самосовершенствовающийся универсалист
У Robocat есть добродетельный цикл обучения: чем более новые задачи он учится, тем лучше он получает при изучении дополнительных новых задач. Первоначальная версия Robocat была успешной всего в 36% случаев по ранее невидимым задачам, после того, как он изучил 500 демонстраций на задачу. Но последний робокат, который тренировался с большим разнообразием задач, более чем удвоил этот показатель успеха в одних и тех же задачах.
Большая разница в производительности между первоначальным робокатом (один раунд обучения) по сравнению с окончательной версией (обширная и разнообразная тренировка, включая самосовершенствование) после того, как обе версии были точно настроены на 500 демонстрациях ранее невидимых задач.
Эти улучшения были связаны с растущим опытом Robocat, аналогичным тому, как люди развивают более разнообразные навыки, поскольку они углубляют свое обучение в данной области. Способность Robocat независимо изучать навыки и быстро самооткрыта, особенно при применении к различным роботизированным устройствам, поможет проложить путь к новому поколению более полезных, общих роботизированных агентов.