Критическим продвижением в последнее время было изучение методов обучения подкреплению (RL) для улучшения LLM помимо традиционных методов сеткой настройки. RL позволяет моделям изучать оптимальные ответы с помощью сигналов вознаграждения, улучшая их способности и принятие решений. RL представляет собой петлю обучения, управляемую обратной связью, которая лучше соответствует человеческим процессам обучения, особенно в задачах, включающих пошаговое решение проблем или математические рассуждения. Это пересечение LLM и RL становится выдающейся областью для академических исследований и отраслевых инноваций.
Центральной проблемой в улучшении LLM для сложных аргументированных задач является обеспечение того, чтобы эти модели развивали более качественные навыки мышления, а не более длительные результаты. При подкреплении обучения LLMS появилась модели, когда модели начинают генерировать чрезмерно длинные ответы, не обязательно улучшая качество ответа. Это вызывает обеспокоенность по поводу смещений оптимизации в методах RL, которые могут способствовать условному выращиванию в отношении правильности. Еще одно осложнение возникает из самих базовых моделей; Некоторые уже показывают признаки способностей рассуждения, что затрудняет изолировать реальное влияние настройки RL. Следовательно, понимание того, как стратегии обучения и модельные основы влияют на окончательную производительность, становится важным.
Ранее после тренировки подготовки к LLMS часто опиралось на подкрепление, такие как алгоритмы, такие как оптимизация проксимальной политики (PPO), обычно используемые в различных реализациях с открытым исходным кодом. Эти реализации часто включали этап нормализации длины отклика, который непреднамеренно вводил уклон в пользу более длинных или более коротких выходов в зависимости от правильности ответа. В частности, групповая относительная оптимизация политики (GRPO) была введена в качестве варианта оптимизации обновлений политики на уровне группы. Несмотря на эффективность, GRPO подвергался критике за встраивание тонких смещений оптимизации, которые влияют на длину и качество ответов на модели. Эти существующие методы, хотя и инновационные, показали ограничения, которые скрывают фактические выгоды от обучения подкреплению.
Исследователи из Sea AI Lab, Национального университета Сингапура и Университета Сингапура, внедрили новый подход под названием « Доктор Грпо (групповая относительная оптимизация политики сделана правильно) решить эти проблемы. Этот метод удаляет проблемные термины нормализации из формулировки GRPO. В частности, он устраняет длину отклика и коэффициенты масштабирования стандартного отклонения, которые вызывали дисбаланс в обновлениях моделей. Пересмотренный алгоритм вычисляет градиенты более справедливо по разным ответам и типам вопросов. Они применили этот метод для обучения QWEN2,5-MATH-7B, модели с открытым исходным кодом, и продемонстрировали его эффективность на множестве тестов. Процесс обучения использовал 27 часов вычислений на 8 × A100 -графических процессорах, что относительно скромная настройка с учетом достигнутых результатов.
Исследователи проверили свой метод на выдающихся математических показателях рассуждений, включая AIME 2024, AMC, Math500, Minerva Math и Olympiadbench. Модель, обученная с доктором GRPO, достигла 43,3%точности на AIME 2024, значительно превосходящая более простую-нор-7B (36,0%), прайм-нулевой 7B (27,6%) и Открытый сезон-нор-7B (16,7%). Он также продемонстрировал сильную среднюю производительность по всем задачам: 40,9% на математике 500, 45,8% на Минерве и 62,7% на олимпиадбенке. Эти результаты подтверждают эффективность метода RL без смещения. Важно отметить, что модель работала лучше и показала более эффективное использование токенов. Неверные ответы стали короче и сфокусированы, что заметно сдвинуто от предыдущих методов обучения, поощряя чрезмерные ответы, независимо от правильности.
Помимо алгоритма обучения, команда также изучила природу базовых моделей, используемых в R1-Zero-подобных настройках RL. Они обнаружили, что некоторые модели, такие как QWEN2.5, демонстрируют расширенные возможности еще до обучения, возможно, из-за предварительной подготовки на сцепленных данных вопросов-ответов. Например, модель QWEN2,5-MATH-7B достигла средней точности 38,2% без какой-либо точной настройки RL, превосходя многие модели, обученные с использованием традиционных методов. Эта ранее существовавшая способность рассуждения усложняет претензии о преимуществах RL, поскольку улучшения могут частично связаться с предварительными стратегиями обучения, а не новым обучением посредством подкрепления. DeepSeek-V3-база, другая исследованная модель, показала спонтанные «ага-моменты» и случаи саморефлексии перед RL, что далее предполагая, что некоторые навыки рассуждений уже могут быть встроены в базовые модели.

Динамика производительности была тщательно отслеживалась во время обучения. Используя доктор GRPO, модели избежали тенденции надувать длины ответа. Оценка показала, что доктор Grpo сохранял устойчивые длины выхода, одновременно увеличивая сигналы вознаграждения, что указывает на прямую корреляцию между обучением и повышенной точностью, а не только словесностью. Напротив, традиционный GRPO приводил к постепенно более длительным неправильным ответам, что ложно указывает на улучшение. Это наблюдение согласуется с выводами, что многие реализации PPO с открытым исходным кодом невольно вводят смещение длины реакции, недостаток, унаследованный от предварительных практик.

Исследователи также исследовали, как разные шаблоны и наборы вопросов влияют на поведение модели. Базовая модель QWEN2,5-MATH-1,5B выполнялась лучше всего без быстрых шаблонов, набрав 61,6% на Minerva Math и 45,8% на Math500. Удивительно, но использование шаблонов часто снижало производительность, прежде чем RL восстановил его. Это подчеркивает, как несоответствия между моделью предварительной подготовки и форматом вывода могут скрывать истинные рассуждения. Кроме того, модели, обученные небольшим, простым наборам вопросов, таким как GSM-8K, часто превзошли те, которые обучались на более крупных наборах данных, оспаривая предположение, что более широкий охват всегда приводит к лучшим рассуждениям.
Несколько ключевых выводов из исследования включают следующее:
- Модели DeepSeek-V3-Base и QWEN2.5 демонстрируют возможности рассуждений еще до RL, что указывает на сильные эффекты предварительного подготовки.
- Доктор Грпо исключает смещения в GRPO, удаляя длину и термины нормализации вознаграждения, повышая эффективность токена.
- Модель QWEN2,5-MATH-7B, обученная доктором GRPO, достигнута:
- 43,3% на AIME 2024
- 62,7% на олимпиадбенке
- 45,8% на Minerva Math
- 40,9% на Math500
- Средний балл по всем тестам: 40,3%
- Неверные ответы были значительно короче с использованием доктора GRPO, избегая ненужной условности, наблюдаемой другими методами.
- Модели QWEN2.5 работают лучше без шаблонов быстрых шаблонов, предполагая, что они могут быть предварительно проведены в форматированных данных Q & A.
- Меньшие наборы вопросов, такие как GSM-8K, могут работать лучше, чем более крупные, противостоящие ожиданиям.
- Реализации PPO с открытым исходным кодом часто содержат непреднамеренные смещения длины реакции, которые доктор GRPO успешно удаляет.
В заключение, исследование выявляет критическое понимание того, как RL влияет на поведение модели большого языка. Исследователи обнаружили, что предварительная подготовка играет существенную роль в определении базовых возможностей. Они также продемонстрировали, что смещения оптимизации в популярных алгоритмах RL могут ввести в заблуждение обучение и оценку. Введение доктора GRPO исправило эти проблемы, что привело к более интерпретируемому и эффективному обучению модели. За 27 часов обучения их модель достигла самых современных результатов по основным показателям по математике. Эти результаты изменяют то, как сообщество должно оценить RL-усиленные LLM, больше сосредоточив внимание на прозрачности метода и базовых характеристиках модели, чем на простых показателях производительности.
Проверить бумага и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.