Большие языковые модели (LLM) стали решающими в поддержке клиентов, автоматическом создании контента и поиске данных. Тем не менее, их эффективности часто препятствуют их неспособности последовательно следовать подробным инструкциям во время нескольких взаимодействий. Эта проблема особенно важна в средах с высокими ставками, таких как финансовые услуги и системы поддержки клиентов, где имеет важное значение для руководящих принципов. LLM часто борются с отзывом инструкций, что приводит к отклонениям от предполагаемого поведения. Кроме того, они генерируют вводящую в заблуждение или неправильную информацию, обычно называемую галлюцинацией, что делает их развертывание в сценариях, требующих точного, контекстного принятия решений.
Поддержание согласованности рассуждений в сложных сценариях остается проблемой для LLMS. В то время как они генерируют последовательные ответы на простые запросы, их производительность снижается в разговорах с несколькими поворотами, на которые влияют прошлые взаимодействия. Одним из ключевых вопросов является дрейф выравнивания, где модели постепенно уходят от оригинальных инструкций, вызывая неправильное толкование руководящих принципов и неправильные рекомендации. Контекст забывчивость – это еще одна проблема, когда модели приоритет недавней информации по сравнению с более ранними деталями, часто игнорируя критические ограничения. Эти факторы способствуют ошибкам, которые подрывают надежность систем, управляемых LLM. Несмотря на такие стратегии, как цепь мыслей (COT) и подсказка на основе проверки, существующие методы не обеспечивают достаточную структуру для надежного направления моделей с помощью сложных задач.
Различные методы подсказки были разработаны для улучшения приверженности обучения. Подсказка COT поощряет пошаговые рассуждения для повышения логической точности, в то время как цепочка проверки требует явного самостоятельного изучения выходов. Хотя эти методы улучшаются при образовании прямого ответа, им не хватает механизмов для усиления специфических для домена ограничений и систематически предотвращать общие сбои. Структуры ИИ, такие как Langchain, добавляют структурные элементы для интеграции инструментов и автоматизации рабочих процессов, но рассматривают рассуждения LLM как черный ящик, ограничивая их способность обеспечивать соблюдение строгих руководящих принципов. Отсутствие механизмов для предотвращения галлюцинации и дрейфа инструкций подчеркивает необходимость более структурированного подхода.
Исследователи в Emcie Co Ltd. разработали Внимательные рассуждения (ARQ) Чтобы устранить эти недостатки. Этот новый подход представляет структурированный план рассуждений, предназначенный для систематического направления LLMS через предопределенные запросы. В отличие от методов рассуждения в свободной форме, ARQ реализует структурированную схему JSON, которая направляет внимание модели на конкретные точки принятия решения в критические моменты. Этот дизайн позволяет ARQ повысить приверженность руководства при одновременном минимизации сбоев, вызванных неправильным толкованием или потерей контекстных деталей. Чтобы оценить его эффективность, подход был проверен в рамках «Парлана», основанную на создании приложений, связанных с клиентами,. Первоначальные результаты продемонстрировали, что ARQ значительно улучшили возможности, связанные с обучением, смягчая ошибки, связанные с галлюцинацией.
Структура ARQ состоит из нескольких этапов, которые в совокупности повышают производительность рассуждений. Первый шаг включает в себя выдачу целевых структурированных запросов, которые напоминают модель ключевых ограничений до генерации ответа. Эти запросы усиливают критические инструкции, гарантируя, что модель не отклоняется от предопределенных руководящих принципов. Затем модель обрабатывает серию пошаговых запросов для усиления рассуждений, специфичных для задачи. В некоторых реализациях следует дополнительный шаг проверки, когда модель проверяет свой ответ на предварительно определенные критерии правильности перед завершением вывода. Этот структурированный подход резко контрастирует с подсказкой к кожушке путем включения явных механизмов, чтобы обеспечить согласованность на каждом этапе процесса рассуждения.
О оценке эффективности в рамках Партана, в контролируемой тестовой среде, включающей 87 различных разговорных сценариев, ARQ достиг 90,2%успеха, превзойдя обоих рассуждений COT (86,1%), так и Generation Generation (81,5%). Методология ARQ преуспела в рассмотрении двух критических режимов отказа: повторное применение руководства и предотвращение галлюцинации. В частности, в тех случаях, когда модель, необходимая для повторного применения более ранних инструкций, ARQ обеспечил успех 92,19%, значительно выше, чем COT (87,81%) и прямой генерацию ответа (85,31%). Кроме того, ARQ снизил возникновение фактических неточностей, при этом модели, обученные ARQ, демонстрируют 23% более низкую частоту галлюцинации, чем модели, полагаясь на стандартные методы кости. Эти результаты подчеркивают важность структурированных подходов к рассуждениям в повышении надежности LLM.

Несколько ключевых выводов из исследования включают:
- ARQ улучшила приверженность инструкции, достигнув уровня успеха 90,2%в 87 тестовых случаях, превзойдя цепочку мыслей (86,1%) и генерацию прямого ответа (81,5%).
- ARQ значительно снизило ошибки галлюцинации на 23% по сравнению с COT, что делает их особенно полезными для критически важных для бизнеса приложений искусственного интеллекта, требующих фактической согласованности.
- В сценариях повторного применения руководства ARQ превзошла COT на 4,38%, достигнув уровня успеха 92,19%по сравнению с 87,81%COT.
- Структурированный характер ARQ позволил получить более эффективные рассуждения в задачах классификации, снижая использование токенов на 29% по сравнению с COT.
- Механизм проверки в ARQ был ключом к предотвращению дрейфа выравнивания. Это гарантировало, что модели сосредоточены на предопределенных ограничениях даже в расширенных разговорах.
- Будущие исследования направлены на то, чтобы еще больше оптимизировать эффективность ARQ путем усовершенствования проектирования запросов и изучения его применения в различных системах принятия решений, управляемых искусственным интеллектом.
Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.
Парган: строите надежные агенты, обращенные к клиенту AI с LLMS 💬 ✅ (повышен)