Baai запускает Omnigen2: единая модель диффузии и трансформатора для мультимодального искусственного интеллекта

Пекинская академия искусственного интеллекта (BAAI) представляет Omnigen2, мультимодальную генеративную модель с открытым исходным кодом. Расширяя его предшественника Omnigen, новая архитектура объединяет генерацию текста до изображения, редактирование изображений и генерацию, управляемую субъектом, в рамках одного трансформатора. Он вводит инновации путем развязки моделирования текста и генерации изображений, включая в себя отражающий механизм обучения и внедряя специально построенный эталон-omnicontext-для оценки контекстуальной согласованности.

Отдельная мультимодальная архитектура

В отличие от предыдущих моделей, которые используют общие параметры по модальностям текста и изображения, Omnigen2 вводит два различных пути: авторегрессивный трансформатор для генерации текста и трансформатор на основе диффузии для синтеза изображения. В нем также используется новая стратегия позиционирования под названием Omni-Rope, которая обеспечивает гибкую обработку последовательностей, пространственных координат и различий в методах модальности, что позволяет получить высокую точную генерацию и редактирование изображений.

Чтобы сохранить предварительную способность генерации текста базового MLLM (на основе QWEN2,5-VL-3B), Omnigen2 Feed, полученные из VAE, только по пути диффузии. Это позволяет избежать компромисса понимания текста и генерации модели при сохранении богатого визуального представления для модуля синтеза изображения.

Механизм отражения итеративной генерации

Одной из выдающихся особенностей в Omnigen2 является механизм отражения. Интегрируя петли обратной связи во время обучения, модель способна анализировать свои сгенерированные результаты, выявлять несоответствия и предлагать уточнения. Этот процесс имитирует самокорректировку времени теста и значительно повышает точность обучения инструкции и визуальную когерентность, особенно для нюансированных задач, таких как изменение цвета, количество объектов или позиционирование.

Набор данных для отражения был построен с использованием обратной связи с несколькими поворотами, что позволило модели научиться пересмотреть и прекратить генерацию на основе оценки контента. Этот механизм особенно полезен для преодоления качества разрыва между открытым исходным кодом и коммерческими моделями.

Omnicontext Bendchmark: Оценка контекстуальной последовательности

Чтобы строго оценить поколение в контексте, команда вводит Omnicontext, эталон, включающий три основных типа задач: одиночные, множественные, и сцену, через характер, объект и категории сцен. Omnigen2 демонстрирует современную производительность среди моделей с открытым исходным кодом в этом домене, набрав 7,18 в целом-выступая за другие ведущие модели, такие как Bagel и Uniworld-V1.

Оценка использует три основных показателя: приглашение (PF), согласованность субъекта (SC) и общий балл (среднее геометрическое), каждый из которых подтвержден с помощью рассуждений на основе GPT-4.1. Эта структура сравнения подчеркивает не только визуальный реализм, но и семантическое выравнивание с подсказками и последовательности перекрестного изображения.

Трубопровод данных и учебный корпус

Omnigen2 был обучен на 140-метровых образцах T2I и 10-метровых проприетарных изображениях, дополненных тщательно курированными наборами данных для генерации и редактирования в контексте. Эти наборы данных были построены с использованием видео на основе видео, который извлекает семантически согласованные пары кадров и автоматически генерирует инструкции с использованием моделей QWEN2.5-VL. Полученные аннотации охватывают мелкозернистые манипуляции изображений, изменения движения и изменения композиции.

Для обучения параметры MLLM остаются в значительной степени замороженными, чтобы сохранить общее понимание, в то время как модуль диффузии обучается с нуля и оптимизирован для совместного визуального текстового внимания. Особенный токен “<|img|>«Запускает генерацию изображений в выходных последовательностях, оптимизируя мультимодальный процесс синтеза.

Производительность в разных задачах

Omnigen2 дает сильные результаты по нескольким доменам:

  • Текст к изображению (T2I): Достигает 0,86 балла по Женевальной и 83,57 на DPG-Bench.
  • Редактирование изображений: Опережает базовые показатели с открытым исходным кодом с высокой семантической консистенцией (SC = 7,16).
  • Внутреннее поколение: Устанавливает новые тесты в Omnicontext с 7.81 (сингл), 7.23 (множество) и 6.71 (сцена).
  • Отражение: Демонстрирует эффективный пересмотр неудавшихся поколений, с многообещающей точностью коррекции и поведением к прекращению.

Заключение

Omnigen2 является надежной и эффективной мультимодальной генеративной системой, которая продвигает единое моделирование посредством архитектурного разделения, высококачественных конвейеров данных и интегрированного механизма отражения. Благодаря моделям с открытым исходным газом, наборами данных и кодом, проект закладывает прочную основу для будущих исследований в области управляемого, последовательного генерации текста изображений. Предстоящие улучшения могут сосредоточиться на обучении подкреплению для уточнения размышлений и расширения многоязычной и низкокачественной устойчивости.


Проверьте БумагаСтраница Github и Project Page. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

Source link

Scroll to Top