Многомодальные крупные языковые модели (MLLM) показали большой прогресс в качестве универсальных помощников по искусственному интеллекту, способным выполнять различные визуальные задачи. Тем не менее, их развертывание в качестве изолированных цифровых сущностей ограничивает их потенциальное влияние. Растущий спрос на интеграцию MLLM в реальные приложения, такие как робототехника и автономные транспортные средства, требует сложного пространственного понимания. Текущие MLLM показывают фундаментальные недостатки пространственных рассуждений, часто терпящие неудачу в основных задачах, таких как различие слева справа. В то время как предыдущие исследования приписывают эти ограничения недостаточным специализированным данным обучения и решают их посредством пространственного включения данных во время обучения, эти подходы сосредоточены на сценариях с одним изображением, что ограничивает восприятие модели статическим анализом поля зрения без динамической информации.
Несколько методов исследования попытались учесть ограничения пространственного понимания в MLLMS. MLLMS включает в себя кодеры изображений, которые преобразуют визуальные входы в токены, обрабатываемые вместе с текстом в скрытом пространстве языковой модели. Предыдущие исследования были сосредоточены на одноместном пространственном понимании, оценке межобъективных пространственных отношений или пространственном распознавании. Некоторые тесты, такие как Blink, Uniqa-3D и Vsibench выходят за пределы отдельных изображений. Существующие улучшения MLLM для пространственного понимания включают SpatialVlm, которые тонко настраивают модели на кураторские пространственные наборы данных, SpatialRgpt, которые включает в себя ссылки на основе маски и глубинные изображения, а также пространственные модели, в которых используются специализированные модели восприятия без тонкого настройки.
Исследователи из Fair Meta и Китайского университета Гонконга предложили основу для улучшения MLLM с помощью надежного многократного пространственного понимания. Это интегрирует три компонента: восприятие глубины, визуальное соответствие и динамическое восприятие для преодоления ограничений статического анализа одноядного изображения. Исследователи разрабатывают Multispa, новый крупномасштабный набор данных, содержащий более 27 миллионов образцов, охватывающих разнообразные 3D и 4D-сцены. Полученная модель мультипространства достигает значительных улучшений по сравнению с базовыми показателями и проприетарными системами с масштабируемыми и обобщаемыми многократными рассуждениями. Кроме того, вводятся пять задач для создания обучающих данных: восприятие глубины, визуальная соответствие, восприятие движения камеры, восприятие движения объекта и восприятие размера объекта.
Многопространство центры вокруг трубопровода генерации данных MultiSpa и комплексной контрольной системы. Формат данных следует за стандартными стратегиями тонкой настройки MLLM, которые имеют формат пар QA: Пользователь:
На эталоне MultiSpa Multi-SpatialMLLM достигает среднего 36% -ного усиления по сравнению с базовыми моделями, достигая 80-90% точности по качественным задачам по сравнению с 50% для базовых моделей, одновременно превосходя все собственные системы. Даже при сложных задачах, таких как прогнозирование векторов движения камеры, он достигает 18% точности по сравнению с почти нулевой производительностью от других базовых показателей. На эталоне Blink Multi-SpatialMLLM достигает почти 90% точности с улучшением в среднем на 26,4% по сравнению с базовыми моделями, превосходя несколько проприетарных систем и демонстрируя передаваемое многократное пространственное понимание. Стандартные базовые оценки VQA показывают грубую паритет с оригинальной производительностью, что указывает на то, что модель поддерживает общее мнение MLLM, не переживая задачи по пространственным рассуждениям.
В этой статье исследователи распространяют пространственное понимание MLLMS на многократные сценарии, устраняя критический разрыв, упущенный в предыдущих исследованиях. Они представили Multispa, первого крупномасштабного набора данных и эталона для многократных задач пространственных рассуждений. Экспериментальная валидация показывает эффективность, масштабируемость и сильные возможности обобщения предлагаемых мультипространственно-международных проблем по разнообразным проблемам пространственного понимания. Исследование показывает значительную информацию, в том числе многозадачные учебные выгоды и возникающее поведение в сложных пространственных рассуждениях. Модель устанавливает новые приложения, в том числе выступает в качестве многократного аннотатора вознаграждения.
Проверьте газету, страницу проекта и страницу GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.
