Создание реалистичных 3D -моделей для таких приложений, как виртуальная реальность, кинопроизводство и инженерный дизайн, может быть громоздким процессом, требующим большого количества ручных проб и ошибок.
В то время как генеративные модели искусственного интеллекта для изображений могут упростить художественные процессы, позволяя создателям создавать жизненные 2D -изображения из текстовых подсказок, эти модели не предназначены для создания трехмерных форм. Чтобы преодолеть разрыв, недавно разработанная техника, называемая дистилляцией с баллом, использует 2D -модели генерации изображений для создания 3D -форм, но его выход часто заканчивается размытым или мультяшным.
Исследователи MIT исследовали отношения и различия между алгоритмами, используемыми для генерации двухмерных изображений и трехмерными формами, выявляя основную причину моделей с более низким качеством. Оттуда они создали простое исправление для оценки дистилляции, что позволяет генерации острых высококачественных 3D-форм, которые ближе по качеству к лучшим 2D-изображениям, созданным моделью.
Некоторые другие методы пытаются решить эту проблему, обрабатывая или настраивая модель генеративного ИИ, которая может быть дорогой и трудоемкой.
Напротив, методика исследователей MIT достигает качества 3D формы наравне с или лучше, чем эти подходы без дополнительного обучения или сложной постобработки.
Более того, выявляя причину проблемы, исследователи улучшили математическое понимание дистилляции и связанных с ними методов, что позволило бы будущей работе еще больше повысить производительность.
«Теперь мы знаем, куда мы должны двигаться, что позволяет нам найти более эффективные решения, которые быстрее и более качественные»,-говорит Артем Лукоанов, аспирант по электротехнике и информатике (EECS), который является ведущим автором статьи о документе. эта техника. «В долгосрочной перспективе наша работа может помочь облегчить процесс стать совместным пилотом для дизайнеров, что облегчает создание более реалистичных 3D-форм».
Соавторами Лукоаяя являются Хайц Саэз де Окариз Борд, аспирант в Оксфордском университете; Кристджан Гринэвальд, научный сотрудник в лаборатории AI MIT-IBM Watson; Vitor Campagnolo Guizilini, ученый из исследовательского института Toyota; Тмур Багаутдинов, научный сотрудник Meta; и старшие авторы Винсент Ситцманн, доцент профессора EEC в MIT, который возглавляет группу представления сцены в лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и Джастин Соломон, доцент профессора EECS и лидер группы обработки данных CSAIL Geometric. Исследование будет представлено на конференции по системам обработки нейронной информации.
От 2D изображений до 3D -форм
Диффузионные модели, такие как Dall-E, представляют собой тип генеративной модели ИИ, которая может создавать жизненные изображения из случайного шума. Чтобы обучить эти модели, исследователи добавляют шум к изображениям, а затем обучают модель обратить вспять процесс и удалить шум. Модели используют этот изученный процесс «разоблачения» для создания изображений на основе текстовых подсказок пользователя.
Но диффузионные модели уступают непосредственно генерировать реалистичные 3D -формы, потому что не хватает трехмерных данных для их обучения. Чтобы обойти эту проблему, исследователи разработали методику, называемую дистилляционным отбором баллов (SDS) в 2022 году, которая использует предварительную диффузионную модель для объединения двухмерных изображений в 3D -представление.
Техника включает в себя начинание со случайного трехмерного представления, что приведет 2D -представление о желаемом объекте с угла случайного угла камеры, добавляя шум к этому изображению, разоблачая его диффузионной моделью, а затем оптимизирует случайное 3D -представление, чтобы оно соответствовало денузированному изображению. Эти шаги повторяются до тех пор, пока не будет генерируется желаемый трехмерный объект.
Тем не менее, 3D -формы, произведенные таким образом, имеют тенденцию выглядеть размытыми или перенасыщенными.
«Это было узкое место на некоторое время. Мы знаем, что базовая модель способна добиться большего успеха, но люди не знали, почему это происходит с 3D -формами », – говорит Лукоанов.
Исследователи MIT исследовали этапы SDS и определили несоответствие между формулой, которая образует ключевую часть процесса, и ее аналогом в 2D -диффузионных моделях. Формула сообщает модели, как обновить случайное представление, добавив и удаляя шум по одному шагу за раз, чтобы сделать его больше похожим на желаемое изображение.
Поскольку часть этой формулы включает в себя уравнение, которое слишком сложно для эффективного решения, SDS заменяет его случайным образом выбранным шумом на каждом этапе. Исследователи MIT обнаружили, что этот шум приводит к размытым или мультяшным 3D -формам.
Приблизительный ответ
Вместо того, чтобы точно решить эту громоздкую формулу, исследователи проверяли методы приближения, пока не определили лучшую. Вместо того, чтобы случайным образом отбираться по шумому термину, их метод приближения позволяет пропавему термину от текущего 3D -визуализации.
«Делая это, как предсказывает анализ в статье, он генерирует 3D -формы, которые выглядят четко и реалистично», – говорит он.
Кроме того, исследователи увеличили разрешение рендеринга изображения и скорректировали некоторые параметры модели для дальнейшего повышения качества 3D формы.
В конце концов, они смогли использовать готовую модель диффузии изображения для создания гладких, реалистично выглядящих 3D-форм без необходимости дорогостоящего переподготовки. 3D -объекты так же резкие по отношению к тем, которые производятся с использованием других методов, которые полагаются на специальные решения.
«Попытка слепо экспериментировать с различными параметрами, иногда это работает, а иногда нет, но вы не знаете, почему. Мы знаем, что это уравнение, которое нам нужно решить. Теперь это позволяет нам думать о более эффективных способах его решения », – говорит он.
Поскольку их метод опирается на предварительную диффузионную модель, он наследует предубеждения и недостатки этой модели, что делает ее склонным к галлюцинациям и другим неудачам. Улучшение базовой диффузионной модели улучшит их процесс.
В дополнение к изучению формулы, чтобы увидеть, как они могут решить ее более эффективно, исследователи заинтересованы в изучении того, как эти идеи могут улучшить методы редактирования изображений.
Работа Артема Лукоанов финансируется Объединенным исследовательским центром Toyota -CSAIL. Исследования Винсента Ситцмана поддержаны Национальным научным фондом США, Сингапурским агентством по науке и технике обороны, Департаментом интерьера/интерьера бизнес -центра и IBM. Исследование Джастина Соломона финансируется, отчасти, исследовательским управлением армии США, Национальным научным фондом, программой Future of Data, CSAIL Future of Data, MIT -IBM Watson AI Lab, Wistron Corporation и Объединенным исследовательским центром Toyota -CSAIL.