Исследователи Toyota Research Institute представили геометрическую диффузию с несколькими просмотрами (MVGD), новаторскую архитектуру, основанную на диффузии, которая непосредственно синтезирует новую RGB и глубины с помощью редких изображений, таких как разыгрывающие изображения, такие как явные представления 3D. Это инновация обещает переопределить границу трехмерного синтеза, предлагая упорядоченное, надежное и масштабируемое решение для генерации реалистичного 3D -контента.
Основной задачей адресов MVGD является достижение согласованности с несколькими обзорами: обеспечение создания новых точек зрения беспрепятственно интегрироваться в 3D-пространство. Традиционные методы основаны на создании сложных трехмерных моделей, которые часто страдают от ограничений памяти, медленного обучения и ограниченного обобщения. MVGD, однако, интегрирует неявные 3D -рассуждения непосредственно в одну диффузионную модель, генерируя изображения и карты глубины, которые поддерживают выравнивание масштаба и геометрическую когерентность с входными изображениями без промежуточной 3D -модели.
MVGD использует мощность диффузионных моделей, известных своей высокой генерацией изображений, для одновременного кодирования внешнего вида и глубины информации
Ключевые инновационные компоненты включают:
- Диффузия на уровне пикселей: В отличие от скрытых диффузионных моделей, MVGD работает в исходном разрешении изображений, используя архитектуру на основе токков, сохраняя мелкие детали.
- Совместные встроенные задачи: Мультизадачная конструкция позволяет модели совместно генерировать изображения RGB и карты глубины, используя единый геометрический и визуальный предыдущий.
- Нормализация шкалы сцены: MVGD автоматически нормализует шкалу сцены на основе позиций входной камеры, обеспечивая геометрическую когерентность в разных наборах данных.
Обучение в беспрецедентном масштабе: более 60 миллионов образцов изображений с несколькими обзорами из реальных и синтетических наборов данных, способствует MVGD с исключительными возможностями обобщения. Этот массивный набор данных позволяет:
- Обобщение с нулевым выстрелом: MVGD демонстрирует надежную производительность на невидимых доменах без четкой настройки.
- Надежность динамики: Несмотря на явное моделирование движения, MVGD эффективно обрабатывает сцены с движущимися объектами.
MVGD достигает современной производительности по таким показателям, как RealEState10K, CO3DV2 и Scannet, превосходя или сопоставление существующих методов как в новом синтезе представления, так и в оценке глубины с несколькими просвещением.
MVGD вводит инкрементную кондиционирование и масштабируемую тонкую настройку, повышая его универсальность и эффективность.
- ИНКРЕМЕНТАЛЬНАЯ КОНДАКЦИЯ позволяет усовершенствовать сгенерированные новые представления, подавая их обратно в модель.
- Масштабируемая тонкая настройка обеспечивает постепенное расширение модели, повышая производительность без обширного переподготовки.
Последствия MVGD значительны:
- Упрощенные 3D -трубопроводы: Устранение явных трехмерных представлений оптимизирует новое синтез представления и оценку глубины.
- Улучшенный реализм: Совместное RGB и Генерация глубины обеспечивают жизненные 3D-согласованные новые точки зрения.
- Масштабируемость и адаптивность: MVGD обрабатывает различное количество входных представлений, что имеет решающее значение для крупномасштабного 3D-захвата.
- Быстрая итерация: Покрементная точная настройка облегчает адаптацию к новым задачам и сложностям.
MVGD представляет собой значительный скачок вперед в 3D-синтезе, объединяя диффузию элегантности с надежными геометрическими сигналами для обеспечения фотореалистических изображений и глубины масштаба. Этот прорыв сигнализирует о появлении диффузионных моделей «геометрия», которые готовы революционизировать воспринимающее создание содержания, автономную навигацию и пространственную ИИ.
Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем
🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

Жан-Марк является успешным руководителем AI Business. Он возглавляет и ускоряет рост решений по производству искусственного интеллекта и основал компанию Computer Vision в 2006 году. Он является признанным докладчиком на конференциях по искусству и имеет степень магистра делового администрирования в Стэнфорде.
🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)