Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше
В то время как крупные языковые модели (LLMS) освоили текст (и другие категории в некоторой степени), им не хватает физического «здравого смысла», чтобы функционировать в динамичных, реальных средах. Это ограничивает развертывание ИИ в таких областях, как производство и логистика, где понимание причины и воздействия имеют решающее значение.
Последняя мета-модель, V-JEPA 2, делает шаг, чтобы преодолеть этот разрыв, изучая всемирное видео и физические взаимодействия.
V-JEPA 2 может помочь создать приложения для искусственного интеллекта, которые требуют прогнозирования результатов и планировать действия в непредсказуемых средах со многими краевыми случаями. Этот подход может дать четкий путь для более способных роботов и передовой автоматизации в физической среде.
Как «мировая модель» учиться планировать
Люди развивают физическую интуицию в раннем возрасте, наблюдая за своим окружением. Если вы видите брошенный мяч, вы инстинктивно знаете его траекторию и можете предсказать, где он приземляется. V-JEPA 2 изучает аналогичную «мировую модель», которая является внутренним моделированием системы ИИ о том, как работает физический мир.
Модель построена на трех основных возможностях, которые необходимы для корпоративных приложений: понимание того, что происходит в сцене, прогнозируя, как сцена будет изменяться в зависимости от действия, и планирование ряда действий для достижения определенной цели. Как заявляет Meta в своем блоге, его «долгосрочное видение заключается в том, что мировые модели позволят агентам ИИ планировать и разум в физическом мире».
Архитектура модели, называемая встроенной предсказательной архитектурой видеокоммерки (V-JEPA), состоит из двух ключевых частей. «Кодимер» смотрит видео и конструирует его в краткое изложение компактных номеров, называемое вставкой. Эта вставка отражает важную информацию об объектах и их отношениях на сцене. Второй предмет, «прогноз», затем принимает это резюме и представляет, как будет развиваться сцена, генерируя прогноз того, как будет выглядеть следующее резюме.
Эта архитектура является последней разработкой Mrakywork JEPA, которая впервые была применена к изображениям с i-JEPA и теперь продвигается к видео, демонстрируя постоянный доступ к созданию мировых моделей.
В отличие от генеративных моделей искусственного интеллекта, которые пытаются предсказать правильный цвет каждого пикселя в будущем интенсивном кадре, интенсивный задача V-jep 2 работает в абстрактном пространстве. Он фокусируется на прогнозировании расширенных функций сцены, таких как положение и траектория объекта, вместо его текстуры или фоновых деталей, что делает ее гораздо более эффективной, чем другие более крупные модели с 1,2 миллиарда параметров.
Это приводит к снижению затрат на компьютер и делает его более подходящим для развертывания в реальных настройках.
Изучение наблюдения и действия
V-JEPA 2 обучается на двух этапах. Во-первых, он создает свое фундаментальное понимание физики посредством самоконтролируемого обучения, наблюдая более миллиона часов не избранных онлайн-видео. Просто наблюдая, как объекты движутся и взаимодействуют, он разрабатывает общую мировую модель без какого -либо человеческого руководства.
На втором этапе эта предварительно обученная модель хорошо настроена на небольшую специализированную базу данных. Обработка всего 62 часа видео, показывающих задачи, выполняющие робота, наряду с соответствующими командами управления, V-JEPA 2 учится подключать конкретные действия к своим физическим результатам. Это приводит к модели, которая может планировать и контролировать действия в реальном мире.

Это двухэтажное обучение обеспечивает критическую способность для реальной автоматизации: планирование роботов с нулевым выстрелом. Робот, основанный на V-JEPA 2, может быть развернут в новой среде и успешно манипулировать объектами, с которыми он никогда не сталкивался раньше, без необходимости найти для этого конкретного расположения.
Это значительный прогресс по сравнению с предыдущими моделями, которые требовали учебных данных точный Робот и окружающая среда, где они будут работать. Модель была обучена базе данных с открытым исходным кодом, а затем успешно развернута на разных роботах в лабораториях Meta.
Например, чтобы выполнить задачу в качестве объекта пикапа, робот получает целевое изображение желаемого результата. Затем он использует V-JEPA 2 для моделирования диапазона возможных последующих движений. Он забивает все воображаемые действия, основываясь на том, насколько близко оно достигает цели, выполняет максимальное номинальное действие и повторяет процесс, пока задача не закончится.
Используя этот метод, модель достигла успешных показателей от 65% до 80% по выбору и локальным задачам с неизвестными объектами в новых настройках.
Реальное влияние физических рассуждений
Эта способность планировать и действовать в новых ситуациях имеет прямые последствия для бизнес -операций. В логистике и производстве он обеспечивает более адаптируемые роботы, которые могут обрабатывать изменения в продуктах и складских расположениях без обширного перепрограммирования. Это может быть особенно полезно, поскольку компании исследуют развертывание гуманоидных роботов на фабриках и сборочных линиях.
Эта же мировая модель может управлять очень реалистичными цифровыми близнецами, позволяя компаниям имитировать новые процессы или обучать других ИИ в физически точной виртуальной среде. В промышленных условиях модель может отслеживать видео о машинке и, основываясь на его изученном понимании физики, предсказывает проблемы и сбои безопасности до их возникновения.
Это исследование является ключевым шагом к тому, что мета-вызовы «Advanced Machine Intelligence (AMI)», где системы ИИ могут «узнать о мире как о людях, планы, как выполнять неизвестные задачи и эффективно адаптироваться к постоянно меняющемуся миру вокруг нас».
Meta выпустила модель и свою учебную код и надеется «построить широкое сообщество вокруг этого исследования, вызывая прогресс в нашей конечной цели разработки мировых моделей, которые могут трансформировать способ взаимодействия ИИ с физическим миром».
Что это значит для лиц, принимающих корпоративные технические решения
V-JEPA 2 приближает роботов ближе к программе, определенной модели, которую облачные команды уже распознают: перед поездкой один раз, развернутую в любом месте. Поскольку модель изучает общую физику из публичного видео и нуждается в нескольких десятках часов изображений, специфичных для задачи, предприятия могут сократить цикл сбора данных, который обычно перетаскивает пилотные проекты. На практике вы можете создать прототип подходящего робота на доступном настольном руке, а затем называть ту же политику на промышленной платформе на заводском этаже, не собирая тысячи свежих образцов и не написав пользовательские сценарии движения.
Более низкая подготовка также доминирует в уравнении стоимости. При 1,2 миллиарда параметров V-JEPA 2 удобно вписывается в один высокий графический процессор, а его абстрактные прогнозирующие цели снижают нагрузку на вывод. Это позволяет командам запустить контроль за закрытым циклом или на краю, избегая облачной задержки и головных болей производительности, которые сопровождаются потоковым видео за пределами завода. Бюджет, который когда -то пошел на массовые компьютерные замки, может финансировать дополнительные датчики, увольнения или более быстрые итерационные циклы.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link