Познакомьтесь с Yambda: крупнейший в мире набор данных событий для ускорения рекомендательных систем

Яндекс недавно внес значительный вклад в сообщество «Рекомендации систем», выпустив Ямбдакрупнейший в мире общедоступный набор данных для исследований и разработок системы рекомендаций. Этот набор данных предназначен для преодоления разрыва между академическими исследованиями и отраслевыми приложениями, предлагая почти 5 миллиардов событий анонимного взаимодействия с пользователями от Yandex Music-одной из флагманских потоковых услуг компании с более чем 28 миллионами пользователей.

Почему Yambda имеет значение: устранение критического разрыва в данных в системах рекомендации

Рекомендательные системы лежат в основе персонализированного опыта многих цифровых услуг сегодня, от электронной коммерции и социальных сетей до потоковых платформ. Эти системы в значительной степени зависят от огромных объемов поведенческих данных, таких как клики, лайки и прослушивания, чтобы вывести предпочтения пользователя и предоставить индивидуальный контент.

Тем не менее, область рекомендательных систем отстало от других доменов искусственного интеллекта, таких как обработка естественного языка, в основном из -за дефицита крупных, открыто доступных наборов данных. В отличие от крупных языковых моделей (LLMS), которые учатся из общедоступных текстовых источников, рекомендательные системы нуждаются в конфиденциальных поведенческих данных, которые коммерчески ценны и трудно анонимно. В результате компании традиционно охраняли эти данные, ограничивая доступ исследователей к наборам данных в реальном мире.

Существующие наборы данных, такие как набор данных Spotify Million Playlist, данные призовых данных Netflix и журналы Criteo Click, либо слишком малы, не имеют временных деталей, либо плохо задокументированы для разработки моделей рекомендателей производственного класса. Выпуск Яндекса Ямбда решает эти проблемы, предоставляя высококачественный, обширный набор данных с богатым набором функций и гарантий анонимизации.

Что содержит Ямбда: масштаб, богатство и конфиденциальность

А Ямбда Набор данных включает в себя анонимизированные взаимодействия пользователей 4,79 млрд. Собранных в течение 10-месячного периода. Эти события происходят примерно от 1 миллиона пользователей, взаимодействующих с почти 9,4 миллионами треков на музыке Yandex. Набор данных включает в себя:

  • Пользовательские взаимодействия: Как неявная обратная связь (слушает), так и явные обратные обращения (лайки, антипатия и их удаление).
  • Анонимные аудио встраивания: Векторные представления треков, полученных из сверточных нейронных сетей, что позволяет моделям использовать сходство аудиоконтента.
  • Флаги органического взаимодействия: Флаг «IS_ORGANIC» указывает, обнаружили ли пользователи трек самостоятельно или посредством рекомендаций, способствуя поведенческому анализу.
  • Точные временные метки: Каждое событие отмечено временем для сохранения временного упорядочения, что имеет решающее значение для моделирования последовательного поведения пользователя.

Все идентификаторы пользователей и треков анонимизированы с использованием числовых идентификаторов для соответствия стандартам конфиденциальности, что обеспечивает обнаруженную информацию о личной информации.

Набор данных представлен в формате Parquet Apache, который оптимизирован для рамках обработки больших данных, таких как Apache Spark и Hadoop, а также совместимо с аналитическими библиотеками, такими как панды и поляры. Это делает Yambda доступной для исследователей и разработчиков, работающих в разнообразных условиях.

Метод оценки: глобальное временное разделение

Ключевым инновацией в наборе данных Yandex является принятие Глобальный временный раскол (GTS) Стратегия оценки. В типичном исследовании системы рекомендации широко используемый метод оставленного один из них удаляет последнее взаимодействие каждого пользователя для тестирования. Однако этот подход нарушает временную непрерывность взаимодействия пользователей, создавая нереальные условия обучения.

GTS, с другой стороны, расщепляет данные на основе метки времени, сохраняя всю последовательность событий. Этот подход более внимательно имитирует реальные сценарии рекомендаций, поскольку он предотвращает проникновение любых будущих данных в обучение и позволяет тестировать модели на действительно невидимых, хронологически более поздних взаимодействиях.

Эта временная оценка имеет важное значение для алгоритмов сравнительного анализа в рамках реалистичных ограничений и понимания их практической эффективности.

Базовые модели и показатели включены

Для поддержки сравнительного анализа и ускорения инноваций Yandex предоставляет базовые рекомендательные модели, реализованные в наборе данных, включая:

  • Самая популярность: Модель, основанная на популярности, рекомендующая самые популярные предметы.
  • Decaypop: Модель популярности по времени.
  • Itemknn: Метод совместной фильтрации на основе соседства.
  • IALS: Неявная чередующаяся матричная факторизация матриц.
  • BPR: Байесовский персонализированный рейтинг, метод парного ранжирования.
  • Sansa и Sasrec: Последовательность моделей, использующих механизмы самопринятия.

Эти базовые показатели оцениваются с использованием стандартных рекомендательных показателей, таких как:

  • Ndcg@k (нормализованный совокупный накопительный усиление): Измеряет качество ранжирования, подчеркивая позицию соответствующих предметов.
  • Вспомнить@k: Оценивает долю соответствующих элементов, полученных.
  • Покрытие@k: Указывает разнообразие рекомендаций по всему каталогу.

Предоставление этих критериев помогает исследователям быстро оценить производительность новых алгоритмов относительно установленных методов.

Широкая применимость за пределами потоковой передачи музыки

В то время как набор данных происходит из службы потоковой передачи музыки, его значение выходит далеко за пределы этого домена. Типы взаимодействия, динамика поведения пользователей и крупномасштабные делают Yambda универсальным эталоном для рекомендательных систем в разных секторах, таких как электронная коммерция, видео платформы и социальные сети. Алгоритмы, подтвержденные в этом наборе данных, могут быть обобщены или адаптированы к различным задачам рекомендаций.

Преимущества для разных заинтересованных сторон

  • Академия: Обеспечивает строгое тестирование теорий и новых алгоритмов в масштабах, относящейся к отрасли.
  • Стартапы и малые и малые Предлагает ресурс, сопоставимый с тем, чем обладают технические гиганты, выравнивая игровое поле и ускоряя разработку передовых рекомендательных двигателей.
  • Конечные пользователи: Косвенно извлекает выгоду из более умных алгоритмов рекомендаций, которые улучшают обнаружение контента, сокращают время поиска и увеличивают взаимодействие.

Моя волна: индивидуальная система рекомендателей Yandex

Музыка Yandex использует собственную систему рекомендаций под названием Моя волнакоторый включает в себя глубокие нейронные сети и ИИ для персонализации музыкальных предложений. Моя волна анализирует тысячи факторов, включая:

  • Последовательности взаимодействия пользователя и история прослушивания.
  • Настраиваемые предпочтения, такие как настроение и язык.
  • Музыкальный анализ в реальном времени спектрограмм, ритма, вокального тона, диапазонов частот и жанров.

Эта система динамически адаптируется к индивидуальным вкусам, выявляя аудио сходства и прогнозируя предпочтения, демонстрируя вид сложных рекомендаций, который выигрывает от крупномасштабных наборов данных, таких как Yambda.

Обеспечение конфиденциальности и этического использования

Выпуск Ямбда Подчеркивает важность конфиденциальности в исследовании системы рекомендаций. Yandex анонимизирует все данные с числовыми идентификаторами и пропускает личную информацию. Набор данных содержит только сигналы взаимодействия без выявления точных пользовательских идентификаторов или конфиденциальных атрибутов.

Этот баланс между открытостью и конфиденциальностью обеспечивает надежные исследования при защите отдельных пользовательских данных, что является критическим рассмотрением этического развития технологий искусственного интеллекта.

Доступ и версии

Yandex предлагает набор данных Yambda в трех размерах для размещения различных исследовательских и вычислительных возможностей:

  • Полная версия: ~ 5 миллиардов событий.
  • Средняя версия: ~ 500 миллионов событий.
  • Небольшая версия: ~ 50 миллионов событий.

Все версии доступны через Обнимающееся лицоПопулярная платформа для размещения наборов данных и моделей машинного обучения, обеспечивающая легкую интеграцию в исследовательские процессы.

Заключение

Выпуск Яндекса Ямбда Набор данных отмечает ключевой момент в исследовании системы рекомендации. Предоставляя беспрецедентную шкалу данных анонимизированного взаимодействия, в сочетании с временной оценкой и базовыми показателями, он устанавливает новый стандарт для сравнительного анализа и ускорения инноваций. Исследователи, стартапы и предприятия теперь могут исследовать и разработать рекомендательные системы, которые лучше отражают реальное использование и обеспечивают улучшенную персонализацию.

Поскольку системы рекомендаций продолжают влиять на бесчисленные онлайн-опыта, такие наборы данных, как Yambda, играют основополагающую роль в расширении границ того, чего может достичь персонализация с помощью AI.

Проверьте Ямбда Набор данных об обнимании лицаПолем


Примечание: Спасибо команде Yandex за мыслительную лидерство/ ресурсы для этой статьи. Команда Yandex поддержала и спонсировала этот контент/статью.


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

Source link

Scroll to Top