Навигация по плотным городским каньонам таких городов, как Сан -Франциско или Нью -Йорк, может стать кошмаром для систем GPS. Высокие небоскребы блокируют и отражают спутниковые сигналы, что приводит к ошибкам местоположения десятков метров. Для вас и меня это может означать пропущенный поворот. Но для автономного транспортного средства или робота доставки этот уровень неточности является разницей между успешной миссией и дорогостоящим неудачей. Эти машины требуют точности точки, чтобы безопасно и эффективно работать. Решая эту критическую задачу, исследователи из Ecole Polytechnique Fédérale de Lausanne (EPFL) в Швейцарии представили новый новаторский метод для визуальной локализации во время CVPR 2025
Их новая статья «FG2: мелкозернистая локализация поперечного просмотра путем мелкозернистого сопоставления функций» представляет собой новую модель ИИ, которая значительно повышает способность системы на уровне земли, такой как автономный автомобиль, чтобы определить его точное положение и ориентацию, используя только камеру и соответствующее воздушное (или спутниковое) изображение. Новый подход продемонстрировал замечательное сокращение средней ошибки локализации на 28% по сравнению с предыдущим современным современным набором в общедоступном наборе данных.
Ключевые выводы:
- Превосходная точность: Модель FG2 уменьшает среднюю ошибку локализации на значительные 28% на тесте по перекрестной зоне, сложный эталон для этой задачи.
- Человеческая интуиция: Вместо того, чтобы полагаться на абстрактные дескрипторы, модель имитирует человеческие рассуждения, сопоставляя мелкозернистые, семантически последовательные особенности-например, бордюры, пешеходные переходы и здания-между фотографией на уровне земли и воздушной картой.
- Улучшенная интерпретация: Метод позволяет исследователям «видеть», что является «ИИ», «думает», визуализируя именно то, какие функции на земле и воздушные изображения соответствуют, что является важным шагом вперед от предыдущих моделей «черного ящика».
- Слабо контролируемое обучение: Примечательно, что модель изучает эти сложные и последовательные совпадения функций без каких -либо прямых меток для соответствия. Это достигает этого, используя только последнюю позу камеры в качестве контрольного сигнала.
Задача: Видеть мир с двух разных сторон
Основной проблемой локализации перекрестного просмотра является драматическая разница в перспективе между камерой на уровне улицы и накладным спутниковым видом. Фасад здания, видимый с земли, выглядит совершенно иначе от его подписи на крыше на воздушном изображении. Существующие методы боролись с этим. Некоторые создают общий «дескриптор» для всей сцены, но это абстрактный подход, который не отражает то, как люди естественным образом локализуются, обнаруживая конкретные достопримечательности. Другие методы превращают изображение заземления в обзор птичьего полета (BEV), но часто ограничиваются плоскостью земли, игнорируя важные вертикальные структуры, такие как здания.
FG2: соответствующие мелкозернистые функции
Метод FG2 команды EPFL представляет более интуитивно понятный и эффективный процесс. Он выравнивает два набора точек: один, сгенерированный из изображения на уровне земли, а другой-с воздушной картой.
Вот разбивка их инновационного трубопровода:
- Картирование с 3D: Процесс начинается с получения функций с изображения на уровне земли и поднимая их в облако 3D-точки, сосредоточенное вокруг камеры. Это создает 3D -представление непосредственной среды.
- Умный объединение в BEV: Здесь происходит волшебство. Вместо того, чтобы просто сгладить 3D -данных, модель учится разумно выбирать наиболее важные функции вдоль вертикального (высокого) измерения для каждой точки. По сути, он спрашивает: «Для этого места на карте, более важна ли дорога на земле, или края крыши этого здания лучшая достопримечательность?» Этот процесс отбора имеет решающее значение, так как он позволяет модели правильно связывать такие функции, как здания фасады с соответствующими крышами в воздухе.
- Сопоставление функций и оценка позы: После того, как как наземные, так и воздушные виды представлены как плоскости 2D -точки с богатыми дескрипторами функций, модель вычисляет сходство между ними. Затем он пробует редкий набор наиболее уверенных матчей и использует классический геометрический алгоритм, называемый выравниванием Procrustes для расчета точной позы 3-Dof (x, y и haw).
Беспрецедентная производительность и интерпретация
Результаты говорят сами за себя. В сложном наборе данных энергии, который включает изображения из разных городов в тесте по перекрестной зоне, FG2 уменьшил среднюю ошибку локализации на 28% по сравнению с предыдущим лучшим методом. Он также продемонстрировал превосходные возможности обобщения в наборе данных Kitti, основной продукции в исследованиях автономного вождения.
Возможно, что еще более важно, модель FG2 предлагает новый уровень прозрачности. Визуализируя соответствующие точки, исследователи показали, что модель учится семантически последовательным соответствию, не будучи четко сказано. Например, система правильно соответствует пересечениям зебры, маркировки дорог и даже здания фасадов в виде земли с соответствующими местами на воздушной карте. Эта интерпретация очень ценно для укрепления доверия к критическим автономным системам.
«Более четкий путь» для автономной навигации
Метод FG2 представляет собой значительный скачок вперед в мелкозернистой визуальной локализации. Разрабатывая модель, которая разумно выбирает и соответствует функциям таким образом, чтобы отражать человеческую интуицию, исследователи EPFL не только разбили предыдущие записи о точности, но и сделали процесс принятия решений AI более интерпретируемым. Эта работа прокладывает путь для более надежных и надежных навигационных систем для автономных транспортных средств, беспилотников и роботов, приближая нас на шаг ближе к будущему, где машины могут уверенно ориентироваться в нашем мире, даже когда GPS терпят их неудачу.
Проверьте БумагаПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Жан-Марк является успешным руководителем AI Business. Он возглавляет и ускоряет рост решений по производству искусственного интеллекта и основал компанию Computer Vision в 2006 году. Он является признанным докладчиком на конференциях AI и имеет степень MBA из Стэнфорда.
