Почему веб -агенты борются с динамическими веб -интерфейсами
Цифровые агенты, разработанные для веб -среда, направлены на автоматизацию таких задач, как навигация страниц, кнопки нажатия или отправка форм. Эти агенты работают путем интерпретации данных браузера и моделирования взаимодействия пользователей для выполнения указанных задач. Успех в этом домене требует точного понимания динамического содержания и возможности предоставлять адаптируемые ответы, поскольку веб -интерфейсы сильно различаются и постоянно развиваются. В то время как предварительные языковые модели показали мастерство в других областях, их производительность в веб-задачах на основе графического интерфейса остается ограниченной, в первую очередь из-за сложности и изменчивости веб-страниц.
Проблемы сбора данных для веб -агентов в масштабе
Одна значительная проблема возникает из -за ограниченного понимания агентов среды, в которой они должны будут работать. Предварительные модели часто колеблются при взаимодействии с незнакомыми или сложными интерфейсами. В отличие от статических наборов данных, реальные веб-среды требуют непрерывного принятия решений в ответ на различия в макете и изменение потоков пользователей. Это затрудняет надежное выполнение таких задач, как поиск конкретного продукта или заполнение онлайн -формы. Данные с человеком могут предложить руководство, но сбор этих данных является трудоемким и не может масштабироваться, чтобы соответствовать разнообразию реальных веб-сценариев.
Обзор прошлых подходов: первые взаимодействия против инструкции-первых методов
Исследователи ранее пытались сделать различные методы для сбора данных для обучения этих агентов. Один из подходов-названного взаимодействия-в первую очередь-позволяет агенту исследуют веб-сайты на основе широких инструкций, а затем помечает свою деятельность, используя другую модель. Хотя это может привести к более глубокому исследованию, это часто приводит к избыточному поведению в разных сессиях, ограничивая разнообразие данных. Другой метод, первым инструкциями, генерирует конкретные задачи для агента, чтобы выполнять на основе содержания одной веб-страницы. Хотя эти задачи более сфокусированы, часто прикрепляются только к видимому содержанию и могут быть невозможными, особенно если они основаны на галлюцинированных элементах.
Представление Go-Browse: структурированное графическое исследование веб-исследования
Исследователи из Университета Карнеги-Меллона представили Go-Browse для решения этих ограничений с помощью стратегии структурированной разведки. Вместо того, чтобы полагаться на общие разведки или статические задачи, Go-Browse рассматривает сбор данных как проблему обхода графа. Он итеративно создает график посещаемых URL -адресов, используя эту структуру для изучения как обнаруженных ранее, так и новых страниц. Это позволяет агенту сбросить на известные страницы и разветвляться, уменьшая избыточность, увеличивая сорт данных. Каждый этап исследования предлагает и проверяет задачи на выбранной странице, обеспечивая только выполнимые задачи, генерирующие учебные данные.


Как работает Go-Browse: модульная архитектура для исследования и проверки
Go-Browse работает через несколько модулей. Модуль Navexplorer фокусируется на предложении навигационных задач, которые подключаются к новым страницам. Как веб -агент, он динамически взаимодействует с каждой страницей, чтобы идентифицировать ссылки, ведущие к неизведанным URL -адресам. Одновременно PageExplorer предлагает локальные задачи для текущей страницы. Модуль SearbiebilityChecker проверяет эти задачи, используя сильные предварительные агенты и модели на языке зрения, чтобы определить, можно ли успешно выполнить предложенные действия. Задачи, которые проходят этот шаг, помечены как возможные и добавляются в набор данных. Затем модуль решателей выбирает дополнительные выполнения задач, как из префиксированных начальных точек, так и из начальных состояний, используя более дешевые модели для максимизации генерации данных при сохранении ресурсов.
Оценка Webarena: Go-Browse превосходит предыдущие базовые показатели
Исследовательская группа оценила Go-Browse на тесте Webarena, который известен своими трудностями в оценке агентов на основе графического интерфейса. Они собрали набор данных, содержащий приблизительно 10 000 успешных траекторий задач и 17 000 неудачных в 100 уникальных URL. Точная настройка модели QWEN-2,5-7B-фактора в этом наборе данных дала показатель успеха задачи 21,7%. Эта производительность превысила GPT-4O-Mini на 2,4% и превзошла предыдущую лучшую модель параметра SUB-10B, NnetNAV, на 2,9%. Учитывая базовый уровень успеха человека в 78%, это все еще отражает место для улучшения, но представляет собой значительный прогресс.
Почему структурированное исследование повышает интеллект веб -агента
Исследование определяет ключевую проблему – дигитальные агенты борются с пониманием сложных веб -сред. Их предлагаемый метод, Go-Browse, решает это путем реализации структурированной, но гибкой стратегии, которая сочетает в себе навигацию, планирование задач и проверку траектории. Рассматривая исследование как задачу обхода графика и используя модульную проверку и отбор проб, подход обеспечивает масштабируемые и разнообразные учебные данные. Эти вклады дают измеримый прирост производительности, демонстрируя обещание структурированного исследования для обучения более интеллектуальных веб -агентов.
TL; DR:
Бумага представляет Go-Browseструктурированная структура исследования, разработанную исследователями Карнеги-Меллона для улучшения обучения веб-цифровых агентов. В отличие от предыдущих методов, разведка кадров Go-Browse в качестве задачи обхода графа, обеспечивающая масштабируемое и разнообразное сбор данных путем систематической навигации и взаимодействия с веб-сайтами. Используя модульные компоненты, такие как Navexplorer и SeaseibilityChecker, он генерирует высококачественные, возможные траектории задачи. При оценке на эталоне Webarena модели, обученные Go-Browse, превзошли предыдущие модели Sub-10B и даже превзошли GPT-4O-Mini, демонстрируя эффективность сбора структурированных данных при создании надежных веб-агентов.
Проверьте Бумага и страница GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.
