Способность быстро генерировать высококачественные изображения имеет решающее значение для создания реалистичных моделируемых сред, которые можно использовать для обучения автомобилей с самостоятельным вождением, чтобы избежать непредсказуемых опасностей, что делает их более безопасными на реальных улицах.
Но методы генеративного искусственного интеллекта, все чаще используемые для производства таких изображений, имеют недостатки. Один популярный тип модели, называемая диффузионной моделью, может создавать потрясающе реалистичные изображения, но слишком медленный и вычислительно интенсивный для многих приложений. С другой стороны, авторегрессивные модели, которые питают LLM, такие как CHATGPT, намного быстрее, но они производят изображения более низкого качества, которые часто пронизаны ошибками.
Исследователи из MIT и Nvidia разработали новый подход, который объединяет лучшие из обоих методов. Их инструмент генерации гибридных изображений использует авторегрессивную модель для быстрого захвата общей картины, а затем небольшую диффузионную модель для уточнения деталей изображения.
Их инструмент, известный как HART (короткий для гибридного авторегрессивного трансформатора), может генерировать изображения, которые соответствуют или превышают качество современных моделей диффузии, но делают это примерно в девять раз быстрее.
Процесс генерации потребляет меньше вычислительных ресурсов, чем типичные диффузионные модели, что позволяет HART работать локально на коммерческом ноутбуке или смартфоне. Пользователь должен ввести только одну приглашение естественного языка в интерфейс HART, чтобы создать изображение.
У Харта может быть широкий спектр приложений, таких как помощь исследователям обучать роботов для выполнения сложных реальных задач и помощи дизайнерам в создании ярких сцен для видеоигр.
«Если вы рисуете ландшафт, и вы просто нарисуете весь холст один раз, это может выглядеть не очень хорошо. Но если вы нарисуете общую картину, а затем совершенствуете изображение меньшими мазками кисти, ваша картина может выглядеть намного лучше. Это основная идея с Хартом»,-говорит Haotian Tang SM ’22, PhD ’25, со-лид-автора автора новой статьи о Харте.
К нему присоединился автор со-лида, студент-студент Университета Цинхуа; Старший автор Сонг Хан, доцент кафедры электротехники и компьютерных наук (EECS), член лаборатории MIT-IBM Watson AI, и выдающийся ученый NVIDIA; а также другие в Массачусетском технологическом институте, Университете Цинхуа и Нвидии. Исследование будет представлено на Международной конференции по обучению.
Лучшее из обоих миров
Известно, что популярные диффузионные модели, такие как стабильная диффузия и Dall-E, создают очень подробные изображения. Эти модели генерируют изображения посредством итеративного процесса, где они предсказывают некоторое количество случайного шума на каждом пикселе, вычитают шум, затем повторяют процесс прогнозирования и «отменять» несколько раз, пока они не генерируют новое изображение, которое полностью свободно от шума.
Поскольку диффузионная модель отбрасывает все пиксели в изображении на каждом этапе, и может быть 30 или более шагов, процесс является медленным и вычислительно дорогостоящим. Но поскольку у модели есть несколько шансов на исправление деталей, она стала неправильной, изображения высококачественные.
Авторегрессивные модели, обычно используемые для прогнозирования текста, могут генерировать изображения, предсказав патчи изображения последовательно, несколько пикселей за раз. Они не могут вернуться назад и исправить свои ошибки, но последовательный процесс прогнозирования намного быстрее, чем диффузия.
Эти модели используют представления, известные как токены для прогнозирования. Авторегрессивная модель использует автоэкодер для сжатия необработанных пикселей изображения в дискретные токены, а также восстановить изображение из прогнозируемых токенов. Хотя это повышает скорость модели, потеря информации, которая происходит во время сжатия, вызывает ошибки, когда модель генерирует новое изображение.
В HART исследователи разработали гибридный подход, который использует авторегрессивную модель для прогнозирования сжатых, дискретных токенов изображения, а затем небольшой диффузионной модели для прогнозирования остаточных токенов. Остаточные жетоны компенсируют потерю информации модели, захватывая детали, оставленные дискретными токенами.
«Мы можем достичь огромного роста с точки зрения качества реконструкции. Наши остаточные жетоны изучают высокочастотные детали, такие как края объекта или волосы, глаза или рты человека. Это места, где дискретные жетоны могут совершать ошибки»,-говорит Тан.
Поскольку диффузионная модель только предсказывает оставшиеся детали после того, как модель авторегрессии выполнила свою работу, она может выполнить задачу в восемь шагах, а не обычную 30 или более стандартную диффузионную модель, требующую для создания всего изображения. Этот минимальный накладной накладной сигнал дополнительной диффузионной модели позволяет HART сохранить преимущество скорости авторегрессивной модели, в то же время значительно повышая ее способность генерировать сложные детали изображения.
«Диффузионная модель имеет более легкую работу, что приводит к большей эффективности», – добавляет он.
Опережать более крупные модели
Во время разработки HART исследователи столкнулись с проблемами в эффективной интеграции диффузионной модели для улучшения модели авторегрессии. Они обнаружили, что включение диффузионной модели на ранних стадиях ауторегрессивного процесса привело к накоплению ошибок. Вместо этого их окончательный дизайн применения диффузионной модели для прогнозирования только остаточных токенов в качестве конечного шага значительно улучшил качество генерации.
Их метод, который использует комбинацию модели авторегрессии трансформатора с 700 миллионами параметров и легкой диффузионной модели с 37 миллионами параметров, может генерировать изображения того же качества, что и те, которые созданы диффузионной моделью с 2 миллиардами параметров, но это делает это примерно в девять раз быстрее. Он использует примерно на 31 процент меньше вычислений, чем современные модели.
Более того, потому что Харт использует авторегрессивную модель для выполнения основной части работы-того же типа модели, которая поддерживает LLMS-она более совместима для интеграции с новым классом генеративных моделей унифицированного зрения. В будущем можно будет взаимодействовать с унифицированной генеративной моделью на языке зрения, возможно, попросив ее показать промежуточные шаги, необходимые для сборки предмета мебели.
«LLMS-это хороший интерфейс для всех видов моделей, таких как мультимодальные модели и модели, которые могут рассуждать. Это способ подтолкнуть интеллект к новой границе. Эффективная модель генерации изображений разблокирует множество возможностей»,-говорит он.
В будущем исследователи хотят пойти по этому пути и создать модели на языке зрения на вершине архитектуры HART. Поскольку Харт масштабируется и обобщается по нескольким модальностям, они также хотят применить его для задач генерации видео и прогнозирования аудио.
Это исследование было отчасти финансировано Аи-лабораторией MIT-IBM Watson AI, MIT и Amazon Science Hub, Программой оборудования MIT AI и Национальным научным фондом США. Инфраструктура GPU для обучения этой модели была пожертвована Nvidia.