Meta AI выпускает модель предсказательной архитектуры (V-JEPA) Встроенного встроенного видео: решающий шаг в продвижении машинного интеллекта

Люди обладают врожденной способностью обрабатывать необработанные визуальные сигналы из сетчатки и разрабатывать структурированное понимание их окружения, идентифицируя объекты и модели движения. Основная цель машинного обучения – раскрыть основные принципы, которые позволяют такому неконтролируемому человеческому обучению. Одна ключевая гипотеза, принцип прогнозирующей особенности, предполагает, что представления последовательных сенсорных входов должны быть прогнозирующими друг друга. Ранние методы, в том числе медленный анализ признаков и спектральные методы, направленные на поддержание временной согласованности при предотвращении коллапса представления. Более поздние подходы включают в себя сиамские сети, контрастное обучение и маскированное моделирование для обеспечения значимой эволюции представления с течением времени. Вместо того, чтобы сосредоточиться исключительно на временной инвариантности, современные методы обучают предикторов -сети для сопоставления отношений функций на разных временных шагах, используя замороженные энкодеры или одновременно обучая энкодера и предиктора. Эта прогнозирующая структура была успешно применена в рамках методов, таких как изображения и аудио, с такими моделями, как JEPA, используя архитектуры совместного ввержения, для эффективного прогнозирования недостающей информации о функциях.

Достижения в самоуверенном обучении, особенно благодаря трансформаторам зрения и совместно-введенным архитектурам, значительно улучшили маскированное моделирование и обучение представлению. Пространственно -временная маскировка расширила эти улучшения на видеоданные, повышая качество изученных представлений. Кроме того, механизмы объединения на основе перекрестного привлечения имеют утонченные автоэкомподер маски, в то время как такие методы, как Byol, смягчают коллапс представления, не полагаясь на увеличение ручной работы. По сравнению с реконструкцией пиксельного пространства, прогнозирование в пространстве объектов позволяет моделям фильтровать нерелевантные детали, что приводит к эффективным, адаптируемым представлениям, которые хорошо обобщаются по задачам. Недавние исследования подчеркивают, что эта стратегия эффективна в вычислительном отношении и эффективен в разных областях, таких как изображения, аудио и текст. Эта работа распространяет эту информацию на видео, демонстрируя, как прогнозирующее обучение функции повышает качество пространственно -временного представления.

Исследователи из Fair at Meta, Inria, Ecole Normale Supériure, CNRS, PSL Research University, Univ. Gustave Eiffel, Courant Institute и New York University представили V-JEPA, модель видения, обученную исключительно прогнозированию функций для неконтролируемого видео обучения. В отличие от традиционных подходов, V-JEPA не полагается на предварительные кодеры, отрицательные образцы, реконструкцию или текстовый надзор. Обученный на два миллиона публичных видео, он достигает сильной производительности в отношении задач на основе движения и внешнего вида без точной настройки. Примечательно, что V-JEPA превосходит другие методы на что-то-то-V2 и остается конкурентоспособным на кинетике-400, демонстрируя, что только прогноз функций может создать эффективные и адаптируемые визуальные представления с более короткой продолжительностью обучения.

Методология включает в себя обучение модели фундамента для объектно-ориентированного обучения с использованием видеодантеров. Во-первых, нейронная сеть извлекает объектно-ориентированные представления из видео кадров, захватывая сигналы движения и внешнего вида. Эти представления затем уточняются посредством контрастного обучения для улучшения отделиемости объектов. Архитектура, основанная на трансформаторах, обрабатывает эти представления для взаимодействия объектов модели с течением времени. Структура обучается крупномасштабному набору данных, оптимизируя точность и согласованность реконструкции в рамках.

V-JEPA сравнивается с методами прогнозирования пикселей с использованием аналогичных модельных архитектур и показывает превосходную производительность по задачам видео и изображения в замороженной оценке, за исключением классификации ImageNet. При тонкой настройке он превосходит модели на основе VIT-L/16 и соответствует Hiera-L, требуя меньше тренировочных образцов. По сравнению с самыми современными моделями V-JEPA превосходит понимание движения и видео, тренируясь более эффективно. Это также демонстрирует сильную эффективность метки, опережая конкурентов в условиях низкого выстрела, сохраняя точность с меньшим количеством маркированных примеров. Эти результаты подчеркивают преимущества прогнозирования функций в эффективном обучении видео представлений с пониженными вычислительными требованиями и требованиями к данным.

В заключение, в исследовании изучалась эффективность прогнозирования признаков как независимой цели для неконтролируемого видео обучения. Он представил V-JEPA, набор моделей зрения, обученных исключительно посредством самоотверженного прогнозирования признаков. V-JEPA хорошо выполняет различные задачи изображения и видео, не требуя адаптации параметров, превосходя предыдущие методы представления видео в замороженных оценках для распознавания действий, обнаружения пространственно-временных действий и классификации изображений. Предварительная подготовка на видео увеличивает его способность захватывать мелкозернистые детали движения, где борются крупномасштабные модели изображений. Кроме того, V-JEPA демонстрирует сильную эффективность метки, сохраняя высокую производительность, даже когда ограниченные помеченные данные доступны для нижестоящих задач.


    Проверить Бумага и блог. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditПолем

    🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


    Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.

Source link

Scroll to Top