Несмотря на растущий интерес к многоагентным системам (MAS), где несколько агентов на основе LLM сотрудничают в сложных задачах, их повышение производительности остается ограниченным по сравнению с рамками с одним агентом. В то время как масса изучается в области разработки программного обеспечения, обнаружения наркотиков и научных симуляций, они часто борются с неэффективностью координации, что приводит к высокой частоте отказов. Эти неудачи выявляют ключевые проблемы, в том числе смещение задач, несоответствия рассуждений и неэффективные механизмы проверки. Эмпирические оценки показывают, что даже современная масса с открытым исходным кодом, такая как чатдев, может демонстрировать низкие показатели успеха, поднимая вопросы об их надежности. В отличие от рамки с одним агентом, масса должна учитывать межагентное смещение, сброс разговора и неполную проверку задач, что значительно влияет на их эффективность. Кроме того, текущие лучшие практики, такие как лучшая в своем выборе, часто превосходят массу, подчеркивая необходимость более глубокого понимания их ограничений.
Существующие исследования решают конкретные проблемы в агентских системах, такие как улучшение памяти рабочего процесса, улучшение контроля состояния и уточнение потоков связи. Тем не менее, эти подходы не предлагают целостной стратегии для повышения надежности MAS между доменами. В то время как различные критерии оценивают агентские системы на основе производительности, безопасности и достоверности, нет единого мнения о том, как создать надежную массу. Предыдущие исследования подчеркивают риски чрезмерных агентских рамок и подчеркивают важность модульной конструкции, однако систематические исследования в режимах отказа MAS остаются дефицитными. Эта работа вносит свой вклад, предоставляя структурированную таксономию сбоев MAS и предлагая принципы проектирования для повышения их надежности, прокладывая путь для более эффективных многоагентных систем LLM.
Исследователи из Калифорнийского университета в Беркли и Intesa Sanpaolo представляют первое комплексное исследование проблем MAS, анализируя пять структур в 150 задачах с экспертными аннотаторами. Они идентифицируют 14 режимов отказа, классифицированные на недостатки проектирования системы, межагентное смещение и проблемы проверки задач, формируя таксономию сбоя в многоагентной системе (MASFT). Они разрабатывают трубопровод LLM-AS-a-guge для облегчения оценки, достигая высокого согласия с аннотаторами человека. Несмотря на такие вмешательства, как улучшенная спецификация агента и оркестрование, сбои MAS сохраняются, подчеркивая необходимость в структурных перепроектировании. Их работа, включая наборы данных и аннотации, открыта для руководства будущими исследованиями и разработками MAS.
Исследование исследует модели неудачи в MAS и классифицирует их в структурированной таксономии. Используя основополагаемый подход теории (GT), исследователи анализируют итерационные трассы выполнения MAS, уточняя категории сбоев в результате исследований межнотаторных соглашений. Они разработали аннотатор на основе LLM для автоматического обнаружения сбоев, достигнув 94% точности. Сбои классифицируются на недостатки проектирования системы, межагентное смещение и неадекватную проверку задач. Таксономия подтверждается итеративной уточнением, обеспечивая надежность. Результаты подчеркивают различные режимы сбоя в архитектурах MAS, подчеркивая необходимость улучшения координации, более четких определений ролей и надежных механизмов проверки для повышения производительности MAS.
Стратегии классифицируются на тактические и структурные подходы для улучшения массы и уменьшения сбоев. Тактические методы включают в себя подсказки по переработке, организацию агента, управление взаимодействием и улучшение этапов ясности и проверки. Однако их эффективность варьируется. Структурные стратегии сосредоточены на общеобразовательных улучшениях, таких как механизмы проверки, стандартизированное общение, обучение подкреплению и управление памятью. Два тематических исследования – MATHCHAT и ChatDEV – демонстрируют эти подходы. MathChat уточняет подсказки и роли агентов, что непоследовательно улучшая результаты. Чатдев усиливает приверженность роле и изменяет топологию структуры для итерационной проверки. Хотя эти вмешательства помогают, значительные улучшения требуют более глубоких структурных модификаций, подчеркивая необходимость дальнейших исследований в области надежности MAS.
В заключение, исследование всесторонне анализирует режимы неудачи в массе с использованием LLMS. Изучив более 150 трасс, исследование идентифицирует 14 различных режимов отказа: спецификация и проектирование системы, межагентное смещение, а также проверка и прекращение задач. Автоматизированный аннотатор LLM вводится для анализа трассов MAS, демонстрируя надежность. Тематические исследования показывают, что простые исправления часто терпят неудачу, что требует структурных стратегий для последовательных улучшений. Несмотря на растущий интерес к массе, их эффективность остается ограниченной по сравнению с системами с одним агентом, подчеркивая необходимость более глубоких исследований координации агентов, проверки и стратегий связи.
Проверить бумага. Весь кредит на это исследование направлена исследователям этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем

Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.