Большие языковые модели (LLMS) показали замечательные достижения в возможностях рассуждения при решении сложных задач. В то время как модели, такие как Operai O1 и Deepseek R1, значительно улучшили сложные показатели рассуждений, такие как конкурентная математика, конкурентное кодирование и GPQA, критические ограничения остаются при оценке их истинного потенциала рассуждения. Текущие наборы данных рассуждений посвящены задачам решения проблем, но не могут охватывать домены, которые требуют открытых рассуждений. Более того, эти наборы данных страдают от ограниченного разнообразия как на уровне масштаба, так и на уровнях сложности, что делает трудности оценкой и расширением возможностей рассуждений LLM в разных областях и уровнях сложности.
Предыдущие попытки расширить возможности рассуждений LLM в основном сосредоточены на двух подходах: генерация синтетических данных и неконтролируемое самоуничивание. В генерации синтетических данных методы звезд и метаматов дополняют существующие наборы данных с новыми рациональными цепочками и вариациями вопросов. Тем не менее, они в значительной степени зависят от ранее существовавших высококачественных наборов данных. В то время как подходы, такие как OpenMathinStruct-2, Numinamath и Xwin-Math, генерируют новые данные из примеров семян, они борются с масштабированием до новых областей. В неконтролируемом самолете, большинство методов полагаются на аннотированные человеком окончательные ответы или модели внешнего вознаграждения, что делает их ресурсными и дорогостоящими, особенно для сложных многоэтапных задач, которые требуют оценки людей LLM.
Исследователи из Meta, и Нью -Йоркский университет предложили NaturalRisioning, комплексный набор данных в 2,8 миллиона вопросов, извлеченных из предварительных корпораций. Этот набор данных охватывает различные области, включая математику, физику, информатику, экономику и бизнес. В отличие от синтетических наборов данных, таких как Metamathqa и OpenMathinstruct-2, NaturalReseSing представляет подлинные проблемы с реальным миром посредством перепада от предварительной корпорации. Он однозначно объединяет проверяемые и открытые вопросы, в том числе теорему, что делает его ценным для разработки алгоритмов, которые усиливают мышления LLMS помимо простых задач проверки и обеспечивают перевод знаний от более сильных к более слабым моделям.
Эффективность метода естественного расследования показана двумя способами для повышения возможностей рассуждений. Во -первых, он использует дистилляцию знаний и контролируемое настройку для достижения более высоких тенденций масштабирования, чем существующие наборы данных. Во-вторых, он функционирует как источник для извлечения данных семян. Для таргетинга в научных рассуждениях, таких как GPQA, метод образцы 250 справочных вопросов и получает 1K аналогичные вопросы об дезактивации из естественного рассмотрения с использованием сходства косинуса между встроенными вопросами. Эти вопросы затем дедуплицируются и кластерируются в 15 тыс. Группы. В протоколе оценки используется тестирование с нулевым выстрелом по различным критериям, включая математику, GPQA, GPQA-Diamond и MMLUPRO, с использованием жадного декодирования для последовательного измерения производительности.
Результаты оценки показывают, что с лишь 1,5 миллионами обучающих примеров модели, обученные естественным рассмотрению, превосходят LLAMA3.1-8B-инструкт, но другие наборы данных, такие как OpenMathinStruct-2 и WebInstruct, не могут достигать сопоставимой производительности даже с 2,8 миллионами данных. В то время как математические наборы данных, такие как OpenMathinStruct-2, показывают сильную производительность по математическим показателям (улучшение с 50,83 до 59,25 по математике), они пытаются обобщать, с точностью GPQA, начитываемым около 26-27% и несовместимыми производительность MMLU-PRO. Более того, наборы данных, такие как WebInststruct, показывают уменьшающуюся доходность, причем пик GPQA достигает максимума 29,02% с 500 тысячами образцов, но снижается до 26,12% при 2,8 млн. Образцов.
В заключение, исследователи представили NaturalResoning, набор данных, который представляет собой значительный прогресс в разработке комплексных наборов данных о рассуждениях для LLMS. Коллекция набора данных в 2,8 миллиона вопросов охватывает несколько доменов, включая математику, физику, информатику, экономику и социальные науки. Результаты показывают, что использование метода естественного рассмотрения для дистилляции знаний приводит к последовательному улучшению эффективности рассуждений по мере увеличения размера данных. Его эффективность распространяется на обеспечение неконтролируемого самостоятельного подготовки LLM с помощью внешних моделей вознаграждения и методов самообслуживания, отмечая шаг вперед, чтобы расширить возможности рассуждений LLMS в различных областях.
Проверить бумага и набор данных. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditАнкет
🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.
