Salesforce AI представляет Crmarena-Pro: первый многократный и предпринимательный эталон для агентов LLM

Агенты искусственного интеллекта, основанные на LLMS, показывают большие перспективы для выполнения сложных бизнес -задач, особенно в таких областях, как управление взаимоотношениями с клиентами (CRM). Тем не менее, оценка их реальной эффективности является сложной задачей из-за отсутствия общедоступных, реалистичных бизнес-данных. Существующие критерии часто сосредотачиваются на простых взаимодействиях с одним поворотом или узкими приложениями, такими как обслуживание клиентов, пропущенные в более широких доменах, включая продажи, процессы CPQ и операции B2B. Они также не могут проверить, насколько хорошо агенты управляют конфиденциальной информацией. Эти ограничения затрудняют полное понимание того, как агенты LLM работают в различных сценариях бизнес-сценариев и коммуникации в реальном мире.

Предыдущие тесты в основном были сосредоточены на задачах обслуживания клиентов в сценариях B2C, с видом на ключевые бизнес -операции, такие как процессы продаж и CPQ, а также уникальные проблемы взаимодействия B2B, включая более длительные циклы продаж. Более того, многим критериям не хватает реализма, часто игнорируя многократный диалог или пропуская проверку экспертов по задачам и средам. Другим критическим пробелом является отсутствие оценки конфиденциальности, жизненно важное в условиях рабочего места, где агенты искусственного интеллекта обычно взаимодействуют с конфиденциальными данными бизнеса и клиентов. Без оценки осведомленности данных эти показатели не решают серьезных практических проблем, таких как конфиденциальность, юридический риск и доверие.

Исследователи из Salesforce AI Research представили Crmarena-Pro, эталон, предназначенный для реалистичной оценки агентов LLM, таких как Gemini 2.5 Pro в профессиональной деловой среде. В нем представлены экспертные задачи по обслуживанию клиентов, продажам и CPQ, охватывающие контексты B2B и B2C. Контрольные тесты проверяют многообразные разговоры и оценивают конфиденциальность осознания. Результаты показывают, что даже максимальные модели, такие как Gemini 2.5 Pro, достигают только около 58% точности в задачах с одним поворотом, при этом производительность снижается до 35% в настройках с несколькими поворотами. Выполнение рабочего процесса является исключением, где Gemini 2.5 Pro превышает 83%, но обработка конфиденциальности остается серьезной проблемой для всех оцениваемых моделей.

Crmarena-Pro-это новый эталон, созданный для строгого тестирования агентов LLM в реалистичных бизнес-условиях, включая обслуживание клиентов, продажи и сценарии CPQ. Построенный с использованием синтетических, но структурно точных корпоративных данных, сгенерированных с GPT-4, и на основе схем Salesforce, The Bendchmark имитирует бизнес-среду через организации Sandboxed Salesforce. Он включает в себя 19 задач, сгруппированных по четырем ключевым навыкам: запросы базы данных, текстовые рассуждения, выполнение рабочего процесса и соответствие политике. Crmarena-Pro также включает в себя многократные разговоры с моделируемыми пользователями и тесты конфиденциальности. Экспертные оценки подтвердили реализм данных и окружающей среды, обеспечивая надежный испытательный стенд для эффективности агента LLM.

Оценка сравнивала топ -агенты LLM по 19 бизнес -задачам, сосредоточившись на выполнении задач и осознании конфиденциальности. Метрики варьировались в зависимости от типа задачи – Exact Match использовали для структурированных выходов, а оценка F1 для генеративных ответов. Судья LLM на основе GPT-4O оценил, отказались ли модели надлежащим образом делиться конфиденциальной информацией. Такие модели, как Gemini-2,5-Pro ​​и O1, с расширенными рассуждениями, явно превзошли более легкие или нездоровые версии, особенно в сложных задачах. В то время как производительность была одинаковой в настройках B2B и B2C, нюансированные тенденции появились на основе прочности модели. Подсказка для конфиденциальности улучшило показатели отказа, но иногда снижает точность задачи, подчеркивая компромисс между конфиденциальностью и производительностью.

В заключение, Crmarena-Pro-это новый эталон, предназначенный для проверки того, насколько хорошо агенты LLM обрабатывают реальные бизнес-задачи в управлении взаимоотношениями с клиентами. Он включает в себя 19 рецензируемых экспертных задач в сценариях B2B и B2C, охватывающие продажи, услуги и цены. В то время как лучшие агенты выполняли прилично в задачах с одним поворотом (около 58% успеха), их производительность резко снизилась до 35% в разговорах с несколькими поворотами. Выполнение рабочего процесса был самой простой областью, но большинство других навыков оказались сложными. Конфиденциальность осознанность была низкой, и улучшив ее за счет побуждения часто снижающей точность задачи. Эти результаты показывают явный разрыв между возможностями LLM и потребностями предприятий.


Проверьте газету, страницу GitHub, страница обнимающего лица и технический блогПолем Весь кредит на это исследование направлено на исследователей этого проекта.

🆕 Вы знали? MarkTechPost-самая быстрорастущая медиа-платформа AI, на которой представлены более 1 миллиона читателей в месяц. Забронируйте стратегию, чтобы обсудить цели вашей кампании. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 95K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.

Source link

Scroll to Top