Самостоятельные рассуждения в LLMS: усиление обнаружения автономных ошибок и коррекции для математических рассуждений

LLM продемонстрировали сильные возможности рассуждений в таких областях, как математика и кодирование, с такими моделями, как CHATGPT, Claude и Gemini, получающие широкое внимание. Выпуск GPT -4 еще больше усилил интерес к улучшению способностей рассуждений за счет улучшенных методов вывода. Ключевой проблемой в этой области является позволяет LLMS обнаруживать и исправлять ошибки в своих выходах-процесс, известный как самокоррекция. В то время как модели могут уточнить ответы, используя внешние сигналы вознаграждения за землей и невозможнее, этот подход вводит вычислительные накладные расходы, требуя запуска нескольких моделей во время вывода. Исследования показали, что точность все еще может улучшаться, даже когда обратная связь вознаграждения получена из прокси -моделей. Однако без внешнего руководства нынешние LLM борются за самокорректировку, основываясь исключительно на внутренних рассуждениях. Недавние усилия исследуют использование LLMS в качестве оценщиков, где модели генерируют сигналы вознаграждения с помощью механизмов, связанных с инструкциями, а не предварительно обученными функциями вознаграждения.

Соответствующие исследования по самоуничижительному выравниванию исследовали методы интеграции генерации и оценки ответов в течение одного LLM. Итеративные подходы с точной настройкой позволяют моделям помечать свои результаты, предоставляя сигналы обучения, которые способствуют самосовершенствованию. Исследования самокоррекции продемонстрировали, что, хотя обучение с помощью учителя усиливает размышления в разговорных задачах, внутренняя самокоррекция для рассуждений остается ненадежным без дополнительного надзора. Большая часть предыдущей работы зависит от внешних моделей вознаграждения, чтобы определить, когда должны быть внесены исправления, что приводит к увеличению затрат на вывод. Обучение на основе правил также было изучено в качестве альтернативы, причем последние достижения показали, что некоторые предварительно обученные модели естественным образом демонстрируют поведение самокоррекции. Тем не менее, репликация этих результатов в различных архитектурах остается сложной задачей, поскольку улучшение производительности часто связано с запатентованными данными обучения и специализированным дизайном модели.

Исследователи из Университета Иллинойса Урбана-Шампейн и Университета Мэриленда, Колледж Парк, исследуют самообслуживание рассуждений в LLMS, позволяя им генерировать шаги рассуждения, оценивать их правильность и уточнить ответы без внешней обратной связи. В их двухэтапной структуре сначала используется последовательный отбор отторжения для построения траекторий длинной цепочки мыслей (COT), которые внедряют самокорректирующее и самокорректирующее поведение. Точная настройка этих данных помогает моделям изучать эти модели, которые дополнительно улучшаются с использованием обучения подкрепления с помощью сигналов на основе правил. Эксперименты с LLAMA-3 и QWEN-2.5 показывают, что этот подход усиливает самокоррекцию и соответствует производительности моделей, основанных на внешних вознаграждениях.

Самостоятельные рассуждения в языковых моделях сформулированы как процесс принятия решений для многогранного Марков (MDP). Модель генерирует первоначальный ответ и оценивает его ответ. Если считается правильным, он останавливается; В противном случае это уточняет ответ итеративно. Этот подход следует за двухэтапной учебной структурой: самооткрытие для самооткрытия (IFT) и RL. Стадия IFT включает в себя последовательный отбор проб отказа для сбора траекторий рассуждений, в то время как RL оптимизирует оценку правильности с использованием KL-регулярного обучения. В отличие от традиционного RLHF, в этом методе используются Oracle Rewards, чтобы предотвратить взломать вознаграждение. Эксперименты демонстрируют его эффективность в повышении точности математических рассуждений посредством структурированных процессов самокоррекции и проверки.

Исследование оценивает модели математических рассуждений с использованием таких наборов данных, как Math500, Olympiadbench и Minerva Math, оценивая производительность с помощью таких показателей, как начальная и окончательная точность, улучшения самокоррекции и точность модели вознаграждения. Базовые методы, такие как звезда/плот и внутренняя самокоррекция, показывают ограниченную эффективность, часто приводя к ненужным модификациям и падениям точности. Напротив, самостоятельные модели рассуждений последовательно повышают точность и эффективность коррекции, в то же время минимизируя неправильные изменения. Тонкая настройка по самоогенерированным исправлениям значительно улучшает способность модели совершенствовать ошибки без перекоррекции. Этот подход превосходит традиционные методы, интегрируя самообслуживающие сигналы, что приводит к более надежным возможностям математических рассуждений.

В заключение, исследование вводит самоуправляемую структуру рассуждений для LLMS, повышение самокоррекции и вычислительной эффективности. Интегрируя самообслуживание IFT и подкрепление обучения, модель обнаруживает и уточняет ошибки, используя прошлые попытки и сигналы внутреннего вознаграждения. Эксперименты с Llama-3 и Qwen-2,5 показывают превосходную производительность в отношении внутренней самокоррекции. Будущие улучшения включают решение вопросов точности модели вознаграждения, улучшение обучения подкреплению на более поздних этапах обучения и изучение многократных методов RL. Двухэтапный подход-последовательный отбор проб отказа для обоснования моделей рассуждений и обучения подкрепления с помощью сигналов, основанных на правилах,-пошаговая коррекция без внешней обратной связи, предлагая масштабируемое, эффективное решение для математических рассуждений.


Проверить бумага и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top