Исследовательская группа Lunchlight выпустила рамку с открытым исходным кодом, которая облегчает создание агентов визуальных рассуждений (с GRPO)

Современные VLM борются с задачами, требующими сложных визуальных рассуждений, где понимание одного изображения недостаточно, и требуется более глубокая интерпретация. Хотя недавние достижения в LLMS значительно улучшили текстовые рассуждения, аналогичный прогресс в визуальной области остается ограниченным. Существующие VLM часто терпят неудачу, когда требуется, чтобы объединить визуальные и текстовые сигналы для логических вычетов, подчеркивая критический разрыв в своих возможностях. Это ограничение особенно очевидно в задачах, которые требуют пошаговых рассуждений, когда просто распознавание объектов на изображении неадекватно без базового понимания отношений и контекстной информации.

Предыдущие исследования по мультимодальному ИИ в основном были сосредоточены на обнаружении объектов, подписании и ответе на вопросы, с ограниченным исследованием рассуждений высшего порядка. В некоторых исследованиях попытались улучшить VLM с использованием цепочки мыслей или явных структур рассуждений. Тем не менее, эти подходы либо ограничены текстовыми данными, либо не могут обобщать различные визуальные задачи. Более того, большинство усилий с открытым исходным кодом в этой области остаются недоразвитыми, что затрудняет продвижение визуальных рассуждений за пределами простых задач распознавания. Решение этих пробелов имеет решающее значение для разработки VLMS для выполнения сложных рассуждений на реальных изображениях.

Исследователи Landlight исследовали обучение VLM для визуальных рассуждений с использованием обучения подкрепления, используя GRPO для повышения эффективности. Хотя предыдущая работа, такая как исследования Deepseek и расширенные рассуждения в языковых моделях, было мало что было сделано для расширения этих методов на VLM, они разработали задачу для решения криптограммы, требующую как визуальной, так и текстовой обработки, чтобы продемонстрировать их подход. Модель Deciphers, закодированные сообщения с использованием случайно сгенерированного изображения декодера, достигая 96% точности с моделью параметров 3B. Анализ внимания подтверждает, что модель активно взаимодействует с визуальным вводом, подчеркивая ее способность сосредоточиться на соответствующих областях декодера при решении задачи.

Обучение VLM с GRPO представляет множество проблем, особенно в области токенизации и награды. Поскольку модели обрабатывают текст как токены, а не отдельные символы, задачи, требующие точных рассуждений на уровне символов, могут быть проблематичными. Чтобы смягчить это, исследователи отформатировали сообщения с пробелами между буквами для упрощения декодирования. Дизайн вознаграждения был еще одним важным аспектом, так как модели обучения подкреплению требуют хорошо структурированной обратной связи для эффективного обучения. Были использованы три типа вознаграждений: вознаграждение формата, обеспечивающее согласованность в выводе, вознаграждение декодирования, поощряющее значимые преобразования скремблированного текста и точность уточнения правильной награды. Тщательно уравновешивая эти вознаграждения, исследователи предотвратили непреднамеренные ярлыки обучения, гарантируя, что модель искренне улучшилась при решении криптограммы.

GRPO, который оптимизирует обучение, сравнивая несколько выходов, а не полагаясь на вычисление прямого градиента, обеспечивал преимущества в стабилизации обучения. Создавая различные ответы на запрос и оценивая их относительно друг друга, подход позволил для более плавных кривых обучения. Исследование также подчеркнуло потенциал VLMS в задачах, основанных на рассуждениях, но признало высокие вычислительные затраты, связанные со сложными моделями зрения. Такие методы, как селективная модельная эскалация, были предложены для решения проблем эффективности, где дорогие модели используются только для неоднозначных случаев. Кроме того, было предложено интеграция предварительно обученных моделей для обнаружения объектов, сегментации и оценки глубины, повышает рассуждения без значительного увеличения вычислительных накладных расходов. Этот подход на основе инструментов предлагает масштабируемую альтернативу обучению массовым сквозным моделям, подчеркивая эффективность без ущерба для точности.

В заключение, команда Langle Light добилась значительных успехов в улучшении VLM за счет интеграции методов обучения подкрепления, в частности GRPO. Их подход был протестирован на задаче по решению криптограмм, где модель продемонстрировала впечатляющую точность. Это продвижение подчеркивает потенциал сочетания визуальных и текстовых данных для повышения производительности VLM. Открытым источником их методологии и инструментов Langle Light стремится расширить возможности более широкого сообщества для дальнейшего развития возможностей визуальных рассуждений в системах искусственного интеллекта.


    Проверить Технические детали, страница GitHub и демонстрация. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем


    Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.

Source link

You might also enjoy

Subscribe Our Newsletter

Scroll to Top