Эта статья AI представляет Web-Sheperd: модель вознаграждения процесса для веб-агентов с 40K набором данных и 10 × Эффективность затрат

May 29, 2025

Dr. Ashish V

Веб -навигация фокусируется на обучении машинах, как взаимодействовать с веб -сайтами для выполнения таких задач, как поиск информации, покупки или услуги бронирования. Создание способного веб -навигационного агента является сложной задачей, потому что она требует понимания структуры веб -сайтов, интерпретации целей пользователей и принятия ряда решений на нескольких шагах. Эти задачи также осложняются необходимостью адаптации агентов в динамических веб -средах, где контент может часто меняться, и где мультимодальная информация, такая как текст и изображения, должна пониматься вместе.

Ключевой проблемой в веб-навигации является отсутствие надежных и подробных моделей вознаграждения, которые могут направлять агентов в режиме реального времени. Существующие методы в первую очередь полагаются на мультимодальные крупные языковые модели (MLLM), такие как GPT-4O и GPT-4O-Mini в качестве оценщиков, которые являются дорогими, медленными и часто неточными, особенно при обращении с длинными последовательностями действий в многостадочных задачах. Эти модели используют оценку на основе подсказок или бинарную обратную связь с успехом/сбоем, но не позволяют предоставить руководство на уровне шага, часто приводя к ошибкам, таким как повторные действия или отсутствующие критические шаги, такие как нажатие конкретных кнопок или полей заполнения. Это ограничение снижает практичность развертывания веб-агентов в реальных сценариях, где эффективность, точность и экономическая эффективность имеют решающее значение.

Исследовательская группа из Университета Йонсеи и Университета Карнеги-Меллона представила Web-Shepherd, модель вознаграждения процесса, специально разработанную для задач веб-навигации. Web-Shepherd является первой моделью, которая оценила агенты веб-навигации на уровне шага, используя структурированные контрольные списки для руководства оценками. Исследователи также разработали коллекцию WebPRM, набор данных из 40 000 аннотированных задач веб-навигации на уровне шага и эталон WebReardBench для оценки PRMS. Эти ресурсы были разработаны для того, чтобы позволить веб-пастуху обеспечить подробную обратную связь, разбивая сложные задачи на более мелкие, измеримые субговые.

Web-Shepherd работает, генерируя контрольный список для каждой задачи на основе инструкции пользователя, таких как «Поиск продукта» или «Нажмите на страницу продукта», и оценивает прогресс агента по этим субголам. Модель использует прогноз следующего ток, чтобы генерировать обратную связь и назначает вознаграждения на основе завершения контрольного списка. Этот процесс позволяет Web-Sheperd оценить правильность каждого шага с помощью мелкозернистого суждения. Модель оценивает вознаграждение за каждый шаг, объединив вероятности «да», «нет» и «в процессе» и усредняет их в контрольном списке. Эта подробная система оценки позволяет агентам получать целевые отзывы о своем прогрессе, улучшая их способность ориентироваться в сложных веб -сайтах.

Исследователи продемонстрировали, что Web-Sheperd значительно превосходит существующие модели. На эталоне WebReardBench Web-Sheperd достиг среднего балла взаимного ранга (MRR) 87,6% и точность траектории в 55% в условиях, только для текста, по сравнению с 47,5% MRR GPT-4O-Mini и точностью траектории 0% без контрольных списков. При тестировании в Webarena-Lite с использованием GPT-4O-Mini в качестве модели политики Web-Shepherd достиг 34,55% успеха, что на 10,9 балла выше, чем использование GPT-4O-Mini в качестве оценщика, а также в десять раз более экономически экономически. В исследованиях абляции исследователи заметили, что производительность веб-пастика значительно снизилась, когда были удалены контрольные списки или обратная связь, доказывая их важность для точных назначений вознаграждения. Они также показали, что мультимодальный вход, удивительно, не всегда улучшал производительность и иногда вводил шум.

Это исследование подчеркивает критическую роль подробных вознаграждений на уровне процесса в создании надежных веб-агентов. Работа команды рассматривает основную проблему веб-навигации-озабоченные сложные, многоэтапные действия-и предлагает решение, которое является одновременно масштабируемым и экономически эффективным. Благодаря веб-пашнике агенты теперь могут получать точную обратную связь во время навигации, что позволяет им более эффективно принимать лучшие решения и выполнять задачи.

Проверьте страницу бумаги и GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

Source link

Эта статья AI представляет Web-Sheperd: модель вознаграждения процесса для веб-агентов с 40K набором данных и 10 × Эффективность затрат

Dr. Ashish V

You might also enjoy

सरकार दे रही है 10वीं और 12वीं के छात्रों को फ्री लैपटॉप, जानें पूरी प्रक्रिया Free Laptop Yojana

Nvidia कहते हैं कि उनके ब्लैकवेल चिप्स ai llms के प्रशिक्षण में लीड बेंचमार्क

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace

Эта статья AI представляет Web-Sheperd: модель вознаграждения процесса для веб-агентов с 40K набором данных и 10 × Эффективность затрат

Dr. Ashish V

You might also enjoy

Specialized AI Agents: Copilot Studio in 10 Minutes

सरकार दे रही है 10वीं और 12वीं के छात्रों को फ्री लैपटॉप, जानें पूरी प्रक्रिया Free Laptop Yojana

Nvidia कहते हैं कि उनके ब्लैकवेल चिप्स ai llms के प्रशिक्षण में लीड बेंचमार्क

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace