Веб -навигация фокусируется на обучении машинах, как взаимодействовать с веб -сайтами для выполнения таких задач, как поиск информации, покупки или услуги бронирования. Создание способного веб -навигационного агента является сложной задачей, потому что она требует понимания структуры веб -сайтов, интерпретации целей пользователей и принятия ряда решений на нескольких шагах. Эти задачи также осложняются необходимостью адаптации агентов в динамических веб -средах, где контент может часто меняться, и где мультимодальная информация, такая как текст и изображения, должна пониматься вместе.
Ключевой проблемой в веб-навигации является отсутствие надежных и подробных моделей вознаграждения, которые могут направлять агентов в режиме реального времени. Существующие методы в первую очередь полагаются на мультимодальные крупные языковые модели (MLLM), такие как GPT-4O и GPT-4O-Mini в качестве оценщиков, которые являются дорогими, медленными и часто неточными, особенно при обращении с длинными последовательностями действий в многостадочных задачах. Эти модели используют оценку на основе подсказок или бинарную обратную связь с успехом/сбоем, но не позволяют предоставить руководство на уровне шага, часто приводя к ошибкам, таким как повторные действия или отсутствующие критические шаги, такие как нажатие конкретных кнопок или полей заполнения. Это ограничение снижает практичность развертывания веб-агентов в реальных сценариях, где эффективность, точность и экономическая эффективность имеют решающее значение.
Исследовательская группа из Университета Йонсеи и Университета Карнеги-Меллона представила Web-Shepherd, модель вознаграждения процесса, специально разработанную для задач веб-навигации. Web-Shepherd является первой моделью, которая оценила агенты веб-навигации на уровне шага, используя структурированные контрольные списки для руководства оценками. Исследователи также разработали коллекцию WebPRM, набор данных из 40 000 аннотированных задач веб-навигации на уровне шага и эталон WebReardBench для оценки PRMS. Эти ресурсы были разработаны для того, чтобы позволить веб-пастуху обеспечить подробную обратную связь, разбивая сложные задачи на более мелкие, измеримые субговые.
Web-Shepherd работает, генерируя контрольный список для каждой задачи на основе инструкции пользователя, таких как «Поиск продукта» или «Нажмите на страницу продукта», и оценивает прогресс агента по этим субголам. Модель использует прогноз следующего ток, чтобы генерировать обратную связь и назначает вознаграждения на основе завершения контрольного списка. Этот процесс позволяет Web-Sheperd оценить правильность каждого шага с помощью мелкозернистого суждения. Модель оценивает вознаграждение за каждый шаг, объединив вероятности «да», «нет» и «в процессе» и усредняет их в контрольном списке. Эта подробная система оценки позволяет агентам получать целевые отзывы о своем прогрессе, улучшая их способность ориентироваться в сложных веб -сайтах.
Исследователи продемонстрировали, что Web-Sheperd значительно превосходит существующие модели. На эталоне WebReardBench Web-Sheperd достиг среднего балла взаимного ранга (MRR) 87,6% и точность траектории в 55% в условиях, только для текста, по сравнению с 47,5% MRR GPT-4O-Mini и точностью траектории 0% без контрольных списков. При тестировании в Webarena-Lite с использованием GPT-4O-Mini в качестве модели политики Web-Shepherd достиг 34,55% успеха, что на 10,9 балла выше, чем использование GPT-4O-Mini в качестве оценщика, а также в десять раз более экономически экономически. В исследованиях абляции исследователи заметили, что производительность веб-пастика значительно снизилась, когда были удалены контрольные списки или обратная связь, доказывая их важность для точных назначений вознаграждения. Они также показали, что мультимодальный вход, удивительно, не всегда улучшал производительность и иногда вводил шум.
Это исследование подчеркивает критическую роль подробных вознаграждений на уровне процесса в создании надежных веб-агентов. Работа команды рассматривает основную проблему веб-навигации-озабоченные сложные, многоэтапные действия-и предлагает решение, которое является одновременно масштабируемым и экономически эффективным. Благодаря веб-пашнике агенты теперь могут получать точную обратную связь во время навигации, что позволяет им более эффективно принимать лучшие решения и выполнять задачи.
Проверьте страницу бумаги и GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.
