Продвижение выравнивания MLLM через MM-RLHF: крупномасштабный набор данных для человеческих предпочтений для мультимодальных задач

Мультимодальные крупные языковые модели (MLLM) привлекли значительное внимание к своей способности выполнять сложные задачи, связанные с видением, языком и интеграцией аудио. Тем не менее, им не хватает комплексного выравнивания за пределами базового контролируемой точной настройки (SFT). Современные современные модели часто обходят строгие стадии выравнивания, оставляя важные аспекты, такие как правдивость, безопасность и выравнивание человеческих предпочтений, неадекватно рассматриваемые. Существующие подходы нацелены только на конкретные домены, такие как уменьшение галлюцинации или разговорные улучшения, что не достигает общей производительности и надежности модели. Этот узкий фокус поднимает вопросы о том, может ли выравнивание предпочтений человека улучшить MLLM в более широком спектре задач.

Последние годы стали свидетелями существенного прогресса в MLLMS, основанных на продвинутых архитектурах LLM, таких как GPT, Llama, Alpaca, Vicuna и Mistral. Эти модели развивались с помощью сквозных подходов к обучению, решая сложные мультимодальные задачи, включающие выравнивание текста изображений, рассуждения и следующие инструкции. Появилось несколько MLLM, в том числе выдр, MPLUG-OWL, LLAVA, QWEN-VL и VITA для решения фундаментальных мультимодальных проблем. Однако усилия по выравниванию остались ограниченными. В то время как алгоритмы, такие как Fact-RLHF и Llavacritic, продемонстрировали обещание в снижении галлюцинаций и улучшении разговорных способностей, они не улучшили общие возможности. Оценки, такие как MME, MMBench и Seed-Bench, были разработаны для оценки этих моделей.

Исследователи из Kuaishou, Casia, NJU, USTC, PKU, Alibaba и Meta AI предложили MM-RLHF, инновационный подход с комплексным набором данных из мелкозернистого, аннотированного человеком пары сравнения предпочтений. Этот набор данных представляет собой значительный прогресс с точки зрения размера, разнообразия и качества аннотации по сравнению с существующими ресурсами. Метод вводит две ключевые инновации: модель вознаграждения на основе критики, которая генерирует подробную критику перед оценкой выходов и динамическое масштабирование вознаграждения, которая оптимизирует веса выборки на основе сигналов вознаграждения. Он повышает как интерпретацию модельных решений, так и эффективность процесса выравнивания, учитывая ограничения традиционных механизмов скалярного вознаграждения в мультимодальном контекстах.

Реализация MM-RLHF включает в себя сложный процесс подготовки данных и фильтрации в трех основных областях: понимание изображений, понимание видео и мультимодальная безопасность. Компонент «Понимание изображений» объединяет данные из нескольких источников, включая Llava-OV, VLFEEDBACK и LLAVA-RLHF, с диалогами с несколькими разворотами, преобразованными в формат с одним поворотом. Эта компиляция приводит к более чем 10 миллионам образцов диалога, охватывающих различные задачи от базовых разговоров до сложных рассуждений. В процессе фильтрации данных используются предопределенные веса выборки, классифицированные на три типа: вопросы с множественным выбором для тестирования рассуждения и восприятия, давно текстовые вопросы для оценки разговорных способностей и краткосрочные вопросы для базового анализа изображений.

Оценка MM-RLHF и MM-DPO показывает значительные улучшения по нескольким измерениям при применении к таким моделям, как Llava-OV-7B, Llava-OV-0.5b и Internvl-1b. Разговорные способности улучшились более чем на 10%, в то время как небезопасное поведение снизилось как минимум на 50%. Выровненные модели показывают лучшие результаты в сокращении галлюцинации, математических рассуждениях и понимании с несколькими изображениями, даже без конкретных данных обучения для некоторых задач. Тем не менее, наблюдаются специфичные для модели вариации, причем различные модели требуют различных настройки гиперпараметра для оптимальной производительности. Кроме того, задачи с высоким разрешением показывают ограниченные выгоды из-за ограничений наборов данных и стратегий фильтрации, которые не нацелены на оптимизацию разрешения.

В этой статье исследователи представили MM-RLHF, набор данных и подход выравнивания, который показывает значительный прогресс в разработке MLLM. В отличие от предыдущих подходов, специфичных для задачи, этот метод требует целостного подхода для повышения производительности модели в разных измерениях. Богатая аннотация набора данных, в том числе баллы на оценку и рейтинг, предлагает неиспользованный потенциал для будущего развития. Будущие направления исследований будут сосредоточены на использовании этой детализации посредством передовых методов оптимизации, устранения ограничений данных с высоким разрешением и расширения набора данных с помощью полуавтоматических методов, что потенциально создает основу для более надежных многомодальных структур обучения.


Проверить Страница бумаги и проекта. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.

Source link

Scroll to Top