Турагенты помогают обеспечить сквозную логистику-например, транспорт, проживание, питание и жилье-для бизнесменов, отдыхающих и всех, кто между ними. Для тех, кто хочет организовать свои собственные договоренности, крупные языковые модели (LLMS), кажется, они были бы сильным инструментом для использования для этой задачи из -за их способности итеративно взаимодействовать с использованием естественного языка, предоставить некоторые здравые рассуждения, собирать информацию и вызовать другие инструменты, чтобы помочь с поставленной задачей. Тем не менее, недавняя работа показала, что современные LLM борются со сложными логистическими и математическими рассуждениями, а также с проблемами с множественными ограничениями, такими как планирование поездки, где, как было установлено, предоставляют жизнеспособные решения в 4 процента или меньше времени, даже с дополнительными инструментами и интерфейсами программирования приложений (API).
Впоследствии исследовательская группа из MIT и MIT-IBM Watson AI Lab пересекала проблему, чтобы увидеть, смогут ли они увеличить уровень успеха решений LLM для сложных проблем. «Мы считаем, что многие из этих проблем планирования, естественно, являются проблемой комбинаторной оптимизации», где вам необходимо удовлетворить несколько ограничений, говорит фанат Чучу, доцент в Департаменте аэронавтики и астронавтики MIT (Aeroastro) и лабораторию для систем информации и систем принятия решений (LIDS). Она также является исследователем в лаборатории MIT-IBM Watson AI. Ее команда применяет машинное обучение, теорию контроля и формальные методы для разработки безопасных и проверенных систем управления для робототехники, автономных систем, контроллеров и взаимодействий человека с имин.
Отметив передачу характера их работы для планирования путешествий, группа стремилась создать удобную структуру, которая может выступить в роли AI Travel Broker, чтобы помочь разработать реалистичные, логичные и полные планы путешествий. Чтобы достичь этого, исследователи объединили общие LLM с алгоритмами и полным решателем удовлетворенности. Решатели – это математические инструменты, которые строго проверяют, можно ли соответствовать критериям и как, но они требуют сложного компьютерного программирования для использования. Это делает их естественными компаньонами в LLMS для таких проблем, где пользователи хотят своевременно планировать, без необходимости программирования знаний или исследований вариантов путешествий. Кроме того, если ограничение пользователя не может быть выполнено, новая техника может идентифицировать и сформулировать, в чем заключается проблема, и предлагать пользователь альтернативные меры, который затем может принять, отклонить или изменять их до тех пор, пока не будет сформулирован действительный план, если он существует.
«Различные сложности планирования путешествий-это то, с чем каждый должен будет иметь дело в какой-то момент. Существуют разные потребности, требования, ограничения и реальная информация, которую вы можете собрать»,-говорит Фан. «Наша идея не состоит в том, чтобы попросить LLMS предложить план путешествия. Вместо этого LLM здесь выступает в качестве переводчика для перевода этого естественного описания проблемы в проблему в проблему, с которой решатель может решить (а затем предоставить пользователю)», – говорит Фан.
Соавтоспособность статьи о работе с фанатом Ян Чжан из MIT-IBM Watson AI Lab, аспирант Aeroastro Yilun Hao и аспирант Yongchao Chen из MIT LIDS и Гарвардский университет. Эта работа была недавно представлена на конференции Наций Америки Ассоциации Ассоциации вычислительной лингвистики.
Разбивая решатель
Математика имеет тенденцию быть специфичной для домена. Например, в обработке естественного языка LLM выполняют регрессии, чтобы предсказать следующий токен, он же «слово» в серии для анализа или создания документа. Это хорошо работает для обобщения разнообразных человеческих вкладов. Однако только LLMS не будет работать для формальных приложений для проверки, таких как в аэрокосмической или кибербезопасности, где цепные подключения и задачи ограничения должны быть полными и доказанными, в противном случае лазейки и уязвимости могут проникать и вызывать критические проблемы безопасности. Здесь, решатели Excel, но им нужны фиксированные входные данные форматирования и борьба с неудовлетворимыми запросами. Однако гибридная техника дает возможность разработать решения для сложных проблем, таких как планирование поездки, таким образом, что это интуитивно понятно для обычных людей.
«Решатель действительно является ключом здесь, потому что, когда мы разрабатываем эти алгоритмы, мы точно знаем, как проблема решается как проблема оптимизации», – говорит Фан. В частности, исследовательская группа использовала решатель, называемый теориями удовлетворенности модуля (SMT), который определяет, может ли формула быть удовлетворена. «С помощью этого конкретного решателя он не просто делает оптимизацию. Он делает рассуждения о множестве различных алгоритмов, чтобы понять, возможна ли проблема планирования или не решать. Это довольно важная вещь в планировании путешествий. Это не очень традиционная математическая проблема оптимизации, потому что люди придумывают все эти ограничения, ограничения, ограничения», фан.
Перевод в действии
«Турагент» работает в четырех шагах, которые можно повторить, по мере необходимости. Исследователи использовали GPT-4, Claude-3 или Mistral-Large в качестве LLM метода. Во -первых, LLM анализирует запрошенный пользовательский план поездки по поводу этапов планирования, отмечая предпочтения в отношении бюджета, отелей, транспорта, направлений, достопримечательностей, ресторанов и продолжительности поездки в дни, а также любые другие рецепты пользователей. Эти шаги затем преобразуются в исполняемый код Python (с аннотацией естественного языка для каждого из ограничений), который вызывает API, такие как CitySearch, FlightSearch и т. Д. Для сбора данных, и SMT Solver, чтобы начать выполнение шагов, изложенных в задаче удовлетворенности ограничения. Если можно найти звуковое и полное решение, решатель выводит результат в LLM, который затем предоставляет пользователь когерентный маршрут.
Если один или несколько ограничений не могут быть выполнены, рамки начинают искать альтернативу. Код решателя выводит код, определяющий противоречивые ограничения (с соответствующей аннотацией), которые затем предоставляет пользователю LLM потенциальным средством. Затем пользователь может решить, как продолжить, пока не будет достигнуто решение (или максимальное количество итераций).
Обобщаемое и надежное планирование
Исследователи проверили свой метод, используя вышеупомянутые LLM против других базовых показателей: GPT-4 сами по себе, Openai O1-Preview, GPT-4 с инструментом для сбора информации и алгоритмом поиска, который оптимизирует общую стоимость. Используя набор данных TravelPlanner, который включает данные для жизнеспособных планов, команда рассмотрела несколько показателей производительности: как часто метод может предоставлять решение, если решение удовлетворяет критерии здравого смысла, например, не посещение двух городов за один день, способность метода соответствовать одному или нескольким ограничениям и конечный показатель прохождения, указывающий на то, что он может соответствовать всем ограничениям. Новый метод обычно достигался более 90 процентов, по сравнению с 10 процентами или ниже для базовых линий. Команда также изучила добавление представления JSON в рамках шага запроса, что дополнительно облегчило методу предоставление решений с прохождением 84,4-98,9 %.
Команда MIT-IBM предложила дополнительные проблемы для своего метода. Они рассмотрели, насколько важным был каждый компонент их решения, например, удаление обратной связи с человеком или решатель, и как это повлияло на корректировку плана в неудовлетворительные запросы в пределах 10 или 20 итераций с использованием нового набора данных, который они создали, называемый UnsatchRistmas, который включает невидимые ограничения и модифицированную версию TravelPlanner. В среднем, рамка группы MIT-IBM достигла успеха 78,6 и 85 процентов, что увеличивается до 81,6 и 91,7 процента с дополнительными раундами модификации плана. Исследователи проанализировали, насколько хорошо он справился с новыми, невидимыми ограничениями и перефразированными запросами и подсказками по ступенчатым коду. В обоих случаях он работал очень хорошо, особенно с уровнем прохождения 86,7 процента для перефразирующего испытания.
Наконец, исследователи MIT-IBM применили свои рамки к другим доменам с такими задачами, как выбор блоков, распределение задач, проблема с продавцом и склад. Здесь метод должен выбрать пронумерованные, цветные блоки и максимизировать его оценку; Оптимизировать назначение задач робота для различных сценариев; Планируйте поездки минимизируют расстояние; и завершение задачи робота и оптимизация.
«Я думаю, что это очень сильная и инновационная структура, которая может сэкономить много времени для людей, а также это очень новое сочетание LLM и решателя», – говорит Хао.
Эта работа была частично профинансирована Управлением военно-морских исследований и лабораторией MIT-IBM Watson AI.