Salesforce AI выпускает BLIP3-O: полностью открытая мультимодальная модель с открытым исходным кодом.

Мультимодальное моделирование фокусируется на строительных системах для понимания и создания контента в визуальных и текстовых форматах. Эти модели предназначены для интерпретации визуальных сцен и создания новых изображений с использованием подсказок естественного языка. С ростом интереса к преодолению видения и языка исследователи работают над интеграцией распознавания изображений и генерации изображений в единую систему. Этот подход устраняет необходимость в отдельных трубопроводах и открывает путь к более когерентному и интеллектуальному взаимодействию между методами.

Ключевой задачей в этой области является разработка архитектуры, которые справляются как понимание, так и генерацию, не ставя под угрозу качество. Модели должны понимать сложные визуальные концепции и создавать высококачественные изображения, соответствующие подсказкам пользователей. Трудность заключается в выявлении подходящих представлений о картинках и процедурах обучения, которые поддерживают обе задачи. Эта проблема становится более очевидной, когда ожидается, что та же модель будет интерпретировать подробные описания текста и генерировать визуально точные выходы на основе их. Это требует выравнивания семантического понимания и синтеза на уровне пикселей.

В предыдущих подходах обычно использовались вариационные автоподошеры (VAE) или кодеры на основе клипов для представления изображений. VAE эффективны для реконструкции, но кодируют функции более низкого уровня, часто приводя к менее информативным представлениям. Кодеры на основе клипов обеспечивают семантические встраивания высокого уровня, учится на крупномасштабных парах изображений. Тем не менее, CLIP не был создан для реконструкции изображения, что затрудняло использование для генерации, если только в сочетании с такими моделями, как диффузионные декодеры. С точки зрения обучения, средняя квадратная ошибка (MSE) широко используется для простоты, но имеет тенденцию создавать детерминированные результаты. Чтобы улучшить разнообразие поколения и качество, исследователи обратились к совпадению потока, что вводит контролируемую стохастичность и лучше моделирует непрерывный характер функций изображения.

Исследователи из Salesforce Research, в сотрудничестве с Университетом Мэриленда и несколькими академическими учреждениями, представили BLIP3-O, семейство единых мультимодальных моделей. Модель принимает двойную стратегию обучения, в которой сначала изучается понимание изображения, а затем генерация изображений. Предлагаемая система использует встроенные зажимы для представления изображений и интегрирует их с помощью диффузионного трансформатора для синтеза новых визуальных выходов. В отличие от предыдущих методов совместного обучения, последовательный подход поддерживает силу каждой задачи независимо. Диффузионный модуль обучается при сохранении авторегрессии замороженной магистрали, избегая помех задач. Чтобы улучшить выравнивание и визуальную верность, команда также курировала BLIP3O-60K, высококачественный набор данных настройки инструкций, созданный путем подсказки GPT-4O по различным визуальным категориям, включая сцены, объекты, жесты и текст. Они разработали две модельные версии: модель параметров на 8 миллиардов, обученная проприетарными и публичными данными, и 4-миллионов версий с использованием только данных с открытым исходным кодом.

Произображение генерации изображений BLIP3-O построено на моделях крупных языков QWEN2.5-VL. Подсказки обрабатываются для создания визуальных функций, утонченных с помощью диффузионного трансформатора, соответствующего потоку. Этот трансформатор основан на архитектуре Lumina-Next, оптимизированной для скорости и качества с 3D роторным положением, внедряющим и сгруппированное внимание. Модель кодирует каждое изображение в 64 семантических векторов с фиксированной длиной, независимо от разрешения, которое поддерживает компактное хранение и эффективное декодирование. Исследовательская группа использовала крупномасштабный набор данных из 25 миллионов изображений из таких источников, как CC12M, SA-1B и JourneDB для обучения моделей. Они расширили его с 30 миллионами проприетарных образцов для модели 8B. Они также включали в себя 60 тысяч образцов настройки инструкций, охватывающих сложные подсказки, такие как сложные жесты и достопримечательности, сгенерированные через GPT-4O.

С точки зрения производительности, BLIP3-O продемонстрировал лучшие оценки по нескольким тестам. Модель 8b достигла Женевальной оценки 0,84 для выравнивания генерации изображений и мудрого балла 0,62 для способности рассуждать. Понимание изображений набрало 1682,6 на MME-Percection, 647,1 на MME-Cognition, 50,6 на MMMU и 83,1 на наборах данных VQAV2 и TextVQA. Оценка человека, сравнивающая BLIP3-O 8B с Janus Pro 7B, показала, что BLIP3-O был предпочтительным в 50,4% случаев для визуального качества и 51,5% для быстрого выравнивания. Эти результаты подтверждаются статистически значимыми значениями p (5,05e-06 и 1.16e-05), что указывает на превосходство BLIP3-O в оценках субъективного качества.

В этом исследовании описывается четкое решение двойной проблемы понимания изображения и генерации. Клип встроения, сопоставление потоков и последовательная стратегия обучения демонстрируют, как можно методично подходить к проблеме. Модель BLIP3-O обеспечивает современные результаты и внедряет эффективный и открытый подход к единому мультимодальному моделированию.


Проверьте газету, страницу GitHub и модели на обнимании лицаПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 90K+ ML SubredditПолем


Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

Source link

Scroll to Top