Языковые модели зрения были революционной вехой в разработке языковых моделей, что преодолевает недостатки предшественника, предварительно обученных LLM, таких как Llama, GPT и т. Д. Полем Таким образом, VLMS дарует лучшее понимание визуальных пространственных отношений, расширяя репрезентативные границы ввода, поддерживая более богатое мировоззрение. С новыми возможностями появляются новые проблемы, что имеет место с VLMS. В настоящее время исследователи по всему миру сталкиваются и решают новые проблемы, чтобы сделать VLMS лучше, по одному. Основываясь на опросе исследователей из Университета Мэриленда и Университета Южной Калифорнии, эта статья дает сложный взгляд на то, что происходит в этой области и что мы можем ожидать в будущем языковых моделей.
В этой статье обсуждается структурированная проверка VLM, разработанных за последние пять лет, охватывающих архитектуры, методологии обучения, контрольные показатели, приложения и проблемы, присущие этой области. Начнем с того, что давайте ознакомим себя с некоторыми моделями SOTA в VLM и от того, где они поступают из -Clip от Openai, Blip от Salesforce, Flamingo от DeepMind и Gemini. Это большая рыба в этом домене, которая быстро расширяется для поддержки мультимодального взаимодействия пользователей.
Когда мы анализируем VLM, чтобы понять его структуру, мы обнаруживаем, что определенные блоки имеют основополагающее значение для моделей, независимо от их функций или возможностей. Это энкодер зрения, текстовый энкодер и текстовый декодер. Кроме того, механизм перекрестного привлечения интегрирует информацию по методам, но он присутствует в меньшем количестве. Архитектура VLMS также развивается, поскольку разработчики теперь используют предварительно обученные большие языковые модели в качестве основы вместо тренировок с нуля. Самоподобные методологии, такие как моделирование изображения в масках и контрастное обучение, были распространены в последнем варианте. С другой стороны, при использовании предварительно обученной модельной основы, наиболее распространенными способами выравнивания визуальных и предварительно обученных функций текста LLM являются использование проектора, совместного обучения и замораживания.
Еще одна интересная разработка – это то, как новейшие модели рассматривают визуальные особенности как токены. Кроме того, трансфузия относится к дискретным текстовым токенам и непрерывным векторам изображения параллельно, введя стратегические точки останова.
Теперь мы обсуждаем основные категории критериев в области, которые оценивают различные возможности VLM. Большинство наборов данных создаются с помощью синтетической генерации или человеческих аннотаций. Эти тесты проверяют возможности различных моделей, включая понимание визуального текста, генерацию текста до изображения и мультимодальный общий интеллект. Существуют также критерии, которые тестируют проблемы с галлюцинациями и т. Д. Соответствие ответов, вопросы с множественным выбором и оценки сходства изображений/текста появились в виде общих методов оценки.
VLM адаптированы к различным задачам, от приложений виртуального мира, таких как виртуальные воплощенные агенты, до реальных приложений, таких как робототехника и автономное вождение. Воплощенные агенты являются интересным вариантом использования, который в значительной степени зависит от разработки vlms.embodied Agants – это модели ИИ с виртуальными или физическими органами, которые могут взаимодействовать с их средой. VLMS увеличивает свою систему взаимодействия с пользователем и поддержку, позволяя таким функциям, как ответ на визуальные вопросы. Кроме того, генеративные модели VLM, такие как GAN, генерируют визуальный контент, такой как мемы и т. Д. В робототехнике VLM находят свои варианты использования в манипуляциях с способностями, навигацией, взаимодействием человека-робот и автономном вождении.
В то время как VLM демонстрировали огромный потенциал по сравнению с их текстовыми аналогами, исследователи должны преодолеть множество ограничений и проблем. Существуют значительные компромиссы между гибкостью и обобщением моделей. Дальнейшие проблемы, такие как визуальная галлюцинация, вызывают обеспокоенность по поводу надежности модели. Существуют дополнительные ограничения на справедливость и безопасность из -за предубеждений в учебных данных. Кроме того, в технических проблемах нам еще предстоит увидеть эффективную тренировку и точную настройку парадигмы, когда высококачественные наборы данных мало. Кроме того, контекстуальные отклонения между методами или смещениями снижают качество выхода.
Заключение: В документе представлен обзор входов и выходов языковых моделей зрения- новой области исследований, которая интегрирует контент из нескольких модальностей. Мы видим архитектуру, инновации и проблемы модели в настоящее время.
Проверить бумага и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditПолем
🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

Адиба Алам Ансари в настоящее время получает двойную степень в Индийском технологическом институте (IIT) Kharagpur, зарабатывая B.Tech в области промышленного инженера и M.Tech в области финансовой инженерии. С большим интересом к машинному обучению и искусственному интеллекту, она заядлый читатель и любознательный человек. Адиба твердо верит в силу технологий для расширения прав и возможностей общества и продвижения благосостояния посредством инновационных решений, основанных на эмпатии и глубокого понимания реальных проблем.
