Meta AI представляет многопространственное пространственное понимание с мультимодальными большими языковыми моделями

Многомодальные крупные языковые модели (MLLM) показали большой прогресс в качестве универсальных помощников по искусственному интеллекту, способным выполнять различные визуальные задачи. Тем не менее, их развертывание в качестве изолированных цифровых сущностей ограничивает их потенциальное влияние. Растущий спрос на интеграцию MLLM в реальные приложения, такие как робототехника и автономные транспортные средства, требует сложного пространственного понимания. Текущие MLLM показывают фундаментальные недостатки пространственных рассуждений, часто терпящие неудачу в основных задачах, таких как различие слева справа. В то время как предыдущие исследования приписывают эти ограничения недостаточным специализированным данным обучения и решают их посредством пространственного включения данных во время обучения, эти подходы сосредоточены на сценариях с одним изображением, что ограничивает восприятие модели статическим анализом поля зрения без динамической информации.

Несколько методов исследования попытались учесть ограничения пространственного понимания в MLLMS. MLLMS включает в себя кодеры изображений, которые преобразуют визуальные входы в токены, обрабатываемые вместе с текстом в скрытом пространстве языковой модели. Предыдущие исследования были сосредоточены на одноместном пространственном понимании, оценке межобъективных пространственных отношений или пространственном распознавании. Некоторые тесты, такие как Blink, Uniqa-3D и Vsibench выходят за пределы отдельных изображений. Существующие улучшения MLLM для пространственного понимания включают SpatialVlm, которые тонко настраивают модели на кураторские пространственные наборы данных, SpatialRgpt, которые включает в себя ссылки на основе маски и глубинные изображения, а также пространственные модели, в которых используются специализированные модели восприятия без тонкого настройки.

Исследователи из Fair Meta и Китайского университета Гонконга предложили основу для улучшения MLLM с помощью надежного многократного пространственного понимания. Это интегрирует три компонента: восприятие глубины, визуальное соответствие и динамическое восприятие для преодоления ограничений статического анализа одноядного изображения. Исследователи разрабатывают Multispa, новый крупномасштабный набор данных, содержащий более 27 миллионов образцов, охватывающих разнообразные 3D и 4D-сцены. Полученная модель мультипространства достигает значительных улучшений по сравнению с базовыми показателями и проприетарными системами с масштабируемыми и обобщаемыми многократными рассуждениями. Кроме того, вводятся пять задач для создания обучающих данных: восприятие глубины, визуальная соответствие, восприятие движения камеры, восприятие движения объекта и восприятие размера объекта.

Многопространство центры вокруг трубопровода генерации данных MultiSpa и комплексной контрольной системы. Формат данных следует за стандартными стратегиями тонкой настройки MLLM, которые имеют формат пар QA: Пользователь: {description} {Вопрос} и помощник: {answer}. Исследователи использовали GPT-4O для создания разнообразных шаблонов для описаний задач, вопросов и ответов. Кроме того, используются высококачественные аннотированные наборы данных сцены, в том числе 4D наборы данных ARIA Digital Twin и Panoptic Studio, а также 3D-аннотации отслеживания от TAPVID3D для восприятия движения объектов и сканета для других пространственных задач. Multispa генерирует более 27 млн. Образцов из 1,1 млн. Уникальных изображений, причем 300 образцов проводится для каждой оценки подзадачи, общей суммы 7800 эталонных образцов.

На эталоне MultiSpa Multi-SpatialMLLM достигает среднего 36% -ного усиления по сравнению с базовыми моделями, достигая 80-90% точности по качественным задачам по сравнению с 50% для базовых моделей, одновременно превосходя все собственные системы. Даже при сложных задачах, таких как прогнозирование векторов движения камеры, он достигает 18% точности по сравнению с почти нулевой производительностью от других базовых показателей. На эталоне Blink Multi-SpatialMLLM достигает почти 90% точности с улучшением в среднем на 26,4% по сравнению с базовыми моделями, превосходя несколько проприетарных систем и демонстрируя передаваемое многократное пространственное понимание. Стандартные базовые оценки VQA показывают грубую паритет с оригинальной производительностью, что указывает на то, что модель поддерживает общее мнение MLLM, не переживая задачи по пространственным рассуждениям.

В этой статье исследователи распространяют пространственное понимание MLLMS на многократные сценарии, устраняя критический разрыв, упущенный в предыдущих исследованиях. Они представили Multispa, первого крупномасштабного набора данных и эталона для многократных задач пространственных рассуждений. Экспериментальная валидация показывает эффективность, масштабируемость и сильные возможности обобщения предлагаемых мультипространственно-международных проблем по разнообразным проблемам пространственного понимания. Исследование показывает значительную информацию, в том числе многозадачные учебные выгоды и возникающее поведение в сложных пространственных рассуждениях. Модель устанавливает новые приложения, в том числе выступает в качестве многократного аннотатора вознаграждения.


Проверьте газету, страницу проекта и страницу GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.

Source link

Scroll to Top