Модель Meta New World позволяет роботам обрабатывать объекты в средах, которых они никогда не встречали раньше


Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше


В то время как крупные языковые модели (LLMS) освоили текст (и другие категории в некоторой степени), им не хватает физического «здравого смысла», чтобы функционировать в динамичных, реальных средах. Это ограничивает развертывание ИИ в таких областях, как производство и логистика, где понимание причины и воздействия имеют решающее значение.

Последняя мета-модель, V-JEPA 2, делает шаг, чтобы преодолеть этот разрыв, изучая всемирное видео и физические взаимодействия.

V-JEPA 2 может помочь создать приложения для искусственного интеллекта, которые требуют прогнозирования результатов и планировать действия в непредсказуемых средах со многими краевыми случаями. Этот подход может дать четкий путь для более способных роботов и передовой автоматизации в физической среде.

Как «мировая модель» учиться планировать

Люди развивают физическую интуицию в раннем возрасте, наблюдая за своим окружением. Если вы видите брошенный мяч, вы инстинктивно знаете его траекторию и можете предсказать, где он приземляется. V-JEPA 2 изучает аналогичную «мировую модель», которая является внутренним моделированием системы ИИ о том, как работает физический мир.

Модель построена на трех основных возможностях, которые необходимы для корпоративных приложений: понимание того, что происходит в сцене, прогнозируя, как сцена будет изменяться в зависимости от действия, и планирование ряда действий для достижения определенной цели. Как заявляет Meta в своем блоге, его «долгосрочное видение заключается в том, что мировые модели позволят агентам ИИ планировать и разум в физическом мире».

Архитектура модели, называемая встроенной предсказательной архитектурой видеокоммерки (V-JEPA), состоит из двух ключевых частей. «Кодимер» смотрит видео и конструирует его в краткое изложение компактных номеров, называемое вставкой. Эта вставка отражает важную информацию об объектах и ​​их отношениях на сцене. Второй предмет, «прогноз», затем принимает это резюме и представляет, как будет развиваться сцена, генерируя прогноз того, как будет выглядеть следующее резюме.

V-JEPA состоит из кодера и прогнозирования (источник: мета-блог)

Эта архитектура является последней разработкой Mrakywork JEPA, которая впервые была применена к изображениям с i-JEPA и теперь продвигается к видео, демонстрируя постоянный доступ к созданию мировых моделей.

В отличие от генеративных моделей искусственного интеллекта, которые пытаются предсказать правильный цвет каждого пикселя в будущем интенсивном кадре, интенсивный задача V-jep 2 работает в абстрактном пространстве. Он фокусируется на прогнозировании расширенных функций сцены, таких как положение и траектория объекта, вместо его текстуры или фоновых деталей, что делает ее гораздо более эффективной, чем другие более крупные модели с 1,2 миллиарда параметров.

Это приводит к снижению затрат на компьютер и делает его более подходящим для развертывания в реальных настройках.

Изучение наблюдения и действия

V-JEPA 2 обучается на двух этапах. Во-первых, он создает свое фундаментальное понимание физики посредством самоконтролируемого обучения, наблюдая более миллиона часов не избранных онлайн-видео. Просто наблюдая, как объекты движутся и взаимодействуют, он разрабатывает общую мировую модель без какого -либо человеческого руководства.

На втором этапе эта предварительно обученная модель хорошо настроена на небольшую специализированную базу данных. Обработка всего 62 часа видео, показывающих задачи, выполняющие робота, наряду с соответствующими командами управления, V-JEPA 2 учится подключать конкретные действия к своим физическим результатам. Это приводит к модели, которая может планировать и контролировать действия в реальном мире.

Двухэтажный тренировочный трубопровод V-JEPA (Источник: Мета)
Двухэтажный тренировочный трубопровод V-JEPA (Источник: Мета)

Это двухэтажное обучение обеспечивает критическую способность для реальной автоматизации: планирование роботов с нулевым выстрелом. Робот, основанный на V-JEPA 2, может быть развернут в новой среде и успешно манипулировать объектами, с которыми он никогда не сталкивался раньше, без необходимости найти для этого конкретного расположения.

Это значительный прогресс по сравнению с предыдущими моделями, которые требовали учебных данных точный Робот и окружающая среда, где они будут работать. Модель была обучена базе данных с открытым исходным кодом, а затем успешно развернута на разных роботах в лабораториях Meta.

Например, чтобы выполнить задачу в качестве объекта пикапа, робот получает целевое изображение желаемого результата. Затем он использует V-JEPA 2 для моделирования диапазона возможных последующих движений. Он забивает все воображаемые действия, основываясь на том, насколько близко оно достигает цели, выполняет максимальное номинальное действие и повторяет процесс, пока задача не закончится.

Используя этот метод, модель достигла успешных показателей от 65% до 80% по выбору и локальным задачам с неизвестными объектами в новых настройках.

Реальное влияние физических рассуждений

Эта способность планировать и действовать в новых ситуациях имеет прямые последствия для бизнес -операций. В логистике и производстве он обеспечивает более адаптируемые роботы, которые могут обрабатывать изменения в продуктах и ​​складских расположениях без обширного перепрограммирования. Это может быть особенно полезно, поскольку компании исследуют развертывание гуманоидных роботов на фабриках и сборочных линиях.

Эта же мировая модель может управлять очень реалистичными цифровыми близнецами, позволяя компаниям имитировать новые процессы или обучать других ИИ в физически точной виртуальной среде. В промышленных условиях модель может отслеживать видео о машинке и, основываясь на его изученном понимании физики, предсказывает проблемы и сбои безопасности до их возникновения.

Это исследование является ключевым шагом к тому, что мета-вызовы «Advanced Machine Intelligence (AMI)», где системы ИИ могут «узнать о мире как о людях, планы, как выполнять неизвестные задачи и эффективно адаптироваться к постоянно меняющемуся миру вокруг нас».

Meta выпустила модель и свою учебную код и надеется «построить широкое сообщество вокруг этого исследования, вызывая прогресс в нашей конечной цели разработки мировых моделей, которые могут трансформировать способ взаимодействия ИИ с физическим миром».

Что это значит для лиц, принимающих корпоративные технические решения

V-JEPA 2 приближает роботов ближе к программе, определенной модели, которую облачные команды уже распознают: перед поездкой один раз, развернутую в любом месте. Поскольку модель изучает общую физику из публичного видео и нуждается в нескольких десятках часов изображений, специфичных для задачи, предприятия могут сократить цикл сбора данных, который обычно перетаскивает пилотные проекты. На практике вы можете создать прототип подходящего робота на доступном настольном руке, а затем называть ту же политику на промышленной платформе на заводском этаже, не собирая тысячи свежих образцов и не написав пользовательские сценарии движения.

Более низкая подготовка также доминирует в уравнении стоимости. При 1,2 миллиарда параметров V-JEPA 2 удобно вписывается в один высокий графический процессор, а его абстрактные прогнозирующие цели снижают нагрузку на вывод. Это позволяет командам запустить контроль за закрытым циклом или на краю, избегая облачной задержки и головных болей производительности, которые сопровождаются потоковым видео за пределами завода. Бюджет, который когда -то пошел на массовые компьютерные замки, может финансировать дополнительные датчики, увольнения или более быстрые итерационные циклы.


Source link
Scroll to Top