Исследователи Bytedance вводят Detailflow: 1D грубая авторегрессивная структура для быстрой, токеновой генерации изображений

Авторегрессивное генерация изображений была сформирована в результате достижения последовательного моделирования, первоначально наблюдаемого в обработке естественного языка. Это поле фокусируется на создании изображений по одному токену за раз, аналогично тому, как предложения построены в языковых моделях. Привлечение этого подхода заключается в его способности поддерживать структурную когерентность по всему изображению, обеспечивая при этом высокий уровень контроля во время процесса генерации. Поскольку исследователи начали применять эти методы к визуальным данным, они обнаружили, что структурированное прогнозирование не только сохранившаяся пространственную целостность, но и эффективно поддерживает такие задачи, как манипуляции с изображениями и мультимодальный перевод.

Несмотря на эти преимущества, генерирование изображений с высоким разрешением остается вычислительно дорогим и медленным. Основной проблемой является количество токенов, необходимых для представления сложных визуальных эффектов. Методы растра, которые сглаживают 2D-изображения в линейные последовательности, требуют тысячи токенов для подробных изображений, что приводит к длительному времени вывода и высокое потребление памяти. Такие модели, как Infinity, нуждаются в более чем 10000 токенах для изображения 1024 × 1024. Это становится неустойчивым для приложений в реальном времени или при масштабировании до более обширных наборов данных. Сокращение бремени токена при сохранении или улучшении качества выпуска стало насущной проблемой.

Усилия по смягчению инфляции тона привели к тому, что инновации, такие как следующее предсказание, наблюдаемое в VAR и Flexvar. Эти модели создают изображения, прогнозируя постепенно более тонкие шкалы, которые имитируют человеческую тенденцию набросаться на грубые контуры перед добавлением деталей. Тем не менее, они по -прежнему полагаются на сотни жетонов – 680 в случае VAR и Flexvar для изображений 256 × 256. Более того, такие подходы, как Titok и Flextok, используют 1D -токенизацию для сжатия пространственной избыточности, но они часто не могут эффективно масштабироваться. Например, GFID Flextok увеличивается с 1,9 при 32 токенах до 2,5 при 256 токенах, подчеркивая деградацию в качество выходов по мере роста числа токенов.

Исследователи из Bytedance представили DetailFlow, 1D -авторегрессивную структуру генерации изображений. Этот метод организует последовательности токенов от глобальных до мелких деталей, используя процесс, называемый предсказанием следующего. В отличие от традиционных методов 2D-сканирования или масштаба на основе масштаба, Dephickflow использует 1D-токенизатор, обученный постепенно деградированным изображениям. Эта конструкция позволяет модели определять приоритеты основополагающих структур изображений, прежде чем усовершенствовать визуальные детали. Благодаря сопоставлению токенов непосредственно с уровнями разрешения, Depallflow значительно снижает требования токенов, позволяя генерировать изображения в семантически упорядоченном, грубо-плавном образом.

Механизм в Detaillow сосредоточен на 1D скрытом пространстве, где каждый токен вносит постепенно больше деталей. Ранее токены кодируют глобальные функции, в то время как позже токены уточняют определенные визуальные аспекты. Чтобы обучить это, исследователи создали функцию отображения разрешений, которая связывает количество токенов с целевым разрешением. Во время обучения модель подвергается воздействию изображений различных уровней качества и учится прогнозировать прогнозирующие результаты более высокого разрешения по мере введения большего количества токенов. Он также реализует прогноз параллельного токена путем группирования последовательностей и предсказав целые наборы одновременно. Поскольку параллельный прогноз может вводить ошибки выборки, был интегрирован механизм самокоррекции. Эта система нарушает определенные токены во время обучения и учит последующих токенов компенсировать, гарантируя, что конечные изображения сохраняют структурную и визуальную целостность.

Результаты экспериментов по эталону ImageNet 256 × 256 заслуживают внимания. DetailFlow достигла балла GFID 2,96, используя только 128 токенов, опередив VAR при 3,3 и Flexvar в 3,05, оба из которых использовали 680 токенов. Еще более впечатляюще, DeftailFlow-64 достиг GFID 2,62 с использованием 512 токенов. С точки зрения скорости, он обеспечил почти вдвое превышающий скорость вывода VAR и Flexvar. Дальнейшее исследование абляции подтвердило, что обучение по самокорректировке и семантическое упорядочение токенов значительно улучшило качество производства. Например, включение самокоррекции снизило GFID с 4,11 до 3,68 в одной настройке. Эти показатели демонстрируют как более высокое качество, так и более быстрое поколение по сравнению с установленными моделями.

Сосредоточив внимание на семантической структуре и снижении избыточности, Depallflow представляет жизнеспособное решение давних вопросов в создании авторегрессии изображений. Грубое подход метода, эффективное параллельное декодирование и способность самокорректировать, подчеркивают, как архитектурные инновации могут учесть ограничения производительности и масштабируемости. Благодаря их структурированному использованию 1D токенов, исследователи из Bytedance продемонстрировали модель, которая поддерживает высокую точность изображения, значительно снижая вычислительную нагрузку, что делает ее ценным дополнением к исследованию синтеза изображений.


Проверьте страницу бумаги и GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

Source link

Scroll to Top