Большие языковые модели питают новую волну цифровых агентов для выполнения сложных веб-задач. Ожидается, что эти агенты интерпретируют инструкции пользователей, ориентируются на интерфейсы и выполняют сложные команды в постоянно меняющихся средах. Трудность заключается не в понимании языка, а в том, чтобы перевести это понимание в точные, секвенированные действия при адаптации к динамическим контекстам. Успех для задач с длинным хоризоном, таких как бронирование путешествий или получение определенных веб-данных, зависит от управления последовательности шагов, которые развиваются с каждым действием. Несмотря на значительный прогресс в языковых возможностях, создание агентов, которые могут эффективно планировать и адаптироваться на каждом этапе, остается нерешенной проблемой.
Создание широких целей в действенные шаги является серьезной проблемой в создании таких агентов. Когда пользователь запрашивает «Следуйте за главным участником этого проекта GitHub», агент должен интерпретировать команду и определить, как перейти к разделу участника, определить соответствующее лицо и инициировать следующее действие. Эта задача становится еще более сложной в динамических средах, где контент может перемещаться между казнями. Без четкого планирования и стратегии обновления агенты могут принимать противоречивые решения или полностью потерпеть неудачу. Нехватка данных обучения, которые показывают, как правильно планировать и выполнять длинные задачи, добавляет еще один слой сложности.
Ранее исследователи пытались решить эти проблемы с моделями, которые либо полагались на стратегии с одним агентом, либо прикладное обучение подкреплению для руководства действиями. Системы с одним агентом, такие как React, пытались объединить рассуждения и исполнение, но часто колебались, поскольку модель была перегружена мыслью и действующей одновременно. Подходы к подкреплению обучения показали перспективу, но оказались нестабильными и очень чувствительными к настройке, специфичной для окружающей среды. Сбор данных обучения для этих методов требовал обширного взаимодействия с окружающей средой, что делает их трудоемкими и нецелесообразными масштабированием. Эти методы также изо всех сил пытались поддерживать последовательность производительности, когда задачи изменились в среднем процессе.
Исследователи из Калифорнийского университета в Беркли, Университете Токио и ICSI представили новую систему плана и действия. Такие компании, как Apple, Nvidia, Microsoft и Intel, поддерживали работу. Эта структура разделяет планирование и выполнение задач на два модуля: планировщик и исполнитель. Планировщику поручено создать структурированный план на основе запроса пользователя, по сути, описывая, какие шаги необходимо предпринять. Затем исполнитель переводит каждый шаг в действия, специфичные для окружающей среды. Разделяя эти обязанности, система позволяет планировщику сосредоточиться на стратегии, в то время как исполнитель выполняет выполнение, повышая надежность обоих компонентов. Этот модульный дизайн знаменует собой значительный сдвиг от предыдущих подходов.
Методология, лежащая в основе плана и акта, подробна и в значительной степени фокусируется на масштабируемой подготовке. Поскольку данные о планировании, аннотируемые человеком, ограничены, исследователи ввели конвейер генерации синтетических данных. Они начали с сбора траекторий действий от моделируемых агентов – последовательностей кликов, входов и ответов. Затем крупные языковые модели проанализировали эти траектории для восстановления планов высокого уровня, основанных на фактических результатах. Например, план может указать идентификацию главного участника, в то время как действия, связанные с ним, включают нажмите на вкладку «Анворители» и анализ результирующего HTML. Команда расширила свой набор данных с 10 000 дополнительных синтетических планов, а затем разработала еще 5000 целевых планов на основе анализа сбоев. Этот метод синтетического обучения сохранил время и дал высококачественные данные, которые отражали реальные потребности в выполнении.
При тестировании план Plan и Act достиг успешной задачи 53,94% на эталоне Webarena-Lite, превзойдя предыдущий лучший результат 49,1% от WEBRL. Без какого -либо планировщика исполнитель базы достиг только 9,85%. Добавление нефийнетунного планировщика повысило производительность до 29,63%, в то время как в сфере производства на 10 000 синтетических планов привели к результатам до 44,24%. Включение динамического повторного воспроизведения добавило окончательный прирост производительности 10,31%. Во всех экспериментах данные показали, что большинство улучшений производительности происходили из -за улучшения планировщика, а не исполнителя. Даже с исполнителем базы, наличие сильного планировщика привела к значительному увеличению уровня успеха, подтверждая гипотезу исследователей, что разделение планирования и выполнения дает лучшие результаты задачи.
В заключение, в этой статье подчеркивается, как определение разрыва между пониманием целей и взаимодействием окружающей среды может привести к более эффективным системам ИИ. Сосредоточив внимание на структурированном планировании и масштабируемом генерации данных, исследователи предложили метод, который решает конкретную проблему и демонстрирует структуру, которая может распространяться на более широкие приложения. План и акт показывает, что эффективное планирование, а не только исполнение, имеет решающее значение для успеха агента искусственного интеллекта в сложных условиях.
Проверить бумага. Весь кредит на это исследование направлена исследователям этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем

Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.