MVGD от Toyota Research Institute: Zero Shot 3D -сцена Реконструкция сцены

Исследователи Toyota Research Institute представили геометрическую диффузию с несколькими просмотрами (MVGD), новаторскую архитектуру, основанную на диффузии, которая непосредственно синтезирует новую RGB и глубины с помощью редких изображений, таких как разыгрывающие изображения, такие как явные представления 3D. Это инновация обещает переопределить границу трехмерного синтеза, предлагая упорядоченное, надежное и масштабируемое решение для генерации реалистичного 3D -контента.

Основной задачей адресов MVGD является достижение согласованности с несколькими обзорами: обеспечение создания новых точек зрения беспрепятственно интегрироваться в 3D-пространство. Традиционные методы основаны на создании сложных трехмерных моделей, которые часто страдают от ограничений памяти, медленного обучения и ограниченного обобщения. MVGD, однако, интегрирует неявные 3D -рассуждения непосредственно в одну диффузионную модель, генерируя изображения и карты глубины, которые поддерживают выравнивание масштаба и геометрическую когерентность с входными изображениями без промежуточной 3D -модели.

MVGD использует мощность диффузионных моделей, известных своей высокой генерацией изображений, для одновременного кодирования внешнего вида и глубины информации

Ключевые инновационные компоненты включают:

  • Диффузия на уровне пикселей: В отличие от скрытых диффузионных моделей, MVGD работает в исходном разрешении изображений, используя архитектуру на основе токков, сохраняя мелкие детали.
  • Совместные встроенные задачи: Мультизадачная конструкция позволяет модели совместно генерировать изображения RGB и карты глубины, используя единый геометрический и визуальный предыдущий.
  • Нормализация шкалы сцены: MVGD автоматически нормализует шкалу сцены на основе позиций входной камеры, обеспечивая геометрическую когерентность в разных наборах данных.

Обучение в беспрецедентном масштабе: более 60 миллионов образцов изображений с несколькими обзорами из реальных и синтетических наборов данных, способствует MVGD с исключительными возможностями обобщения. Этот массивный набор данных позволяет:

  • Обобщение с нулевым выстрелом: MVGD демонстрирует надежную производительность на невидимых доменах без четкой настройки.
  • Надежность динамики: Несмотря на явное моделирование движения, MVGD эффективно обрабатывает сцены с движущимися объектами.

MVGD достигает современной производительности по таким показателям, как RealEState10K, CO3DV2 и Scannet, превосходя или сопоставление существующих методов как в новом синтезе представления, так и в оценке глубины с несколькими просвещением.

MVGD вводит инкрементную кондиционирование и масштабируемую тонкую настройку, повышая его универсальность и эффективность.

  • ИНКРЕМЕНТАЛЬНАЯ КОНДАКЦИЯ позволяет усовершенствовать сгенерированные новые представления, подавая их обратно в модель.
  • Масштабируемая тонкая настройка обеспечивает постепенное расширение модели, повышая производительность без обширного переподготовки.

Последствия MVGD значительны:

  • Упрощенные 3D -трубопроводы: Устранение явных трехмерных представлений оптимизирует новое синтез представления и оценку глубины.
  • Улучшенный реализм: Совместное RGB и Генерация глубины обеспечивают жизненные 3D-согласованные новые точки зрения.
  • Масштабируемость и адаптивность: MVGD обрабатывает различное количество входных представлений, что имеет решающее значение для крупномасштабного 3D-захвата.
  • Быстрая итерация: Покрементная точная настройка облегчает адаптацию к новым задачам и сложностям.

MVGD представляет собой значительный скачок вперед в 3D-синтезе, объединяя диффузию элегантности с надежными геометрическими сигналами для обеспечения фотореалистических изображений и глубины масштаба. Этот прорыв сигнализирует о появлении диффузионных моделей «геометрия», которые готовы революционизировать воспринимающее создание содержания, автономную навигацию и пространственную ИИ.


Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


Жан-Марк является успешным руководителем AI Business. Он возглавляет и ускоряет рост решений по производству искусственного интеллекта и основал компанию Computer Vision в 2006 году. Он является признанным докладчиком на конференциях по искусству и имеет степень магистра делового администрирования в Стэнфорде.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top