Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше
Рассуждение цепным мышлением (COT)-процесс, посредством которого модели разбивают проблемы на управляемые «мысли», прежде чем вычитать ответы,-это неотъемлемая часть последнего поколения больших языковых моделей последнего поколения (LLMS).
Тем не менее, затраты на вывод моделей рассуждений могут быстро складываться, потому что модели генерируют избыточные котч -tokens. В новой статье исследователи из университета Карнеги -Меллона предлагают технику обучения LLM, которая дает разработчикам больше контроля над длиной кроватки.
Вы называемый контролируемой политической оптимизацией (LCPO), техника устанавливает модель, чтобы дать правильные ответы, но сохраняя свои «мысли» в рамках заранее определенного бюджета токена. Эксперименты показывают, что модели, обученные LCPO, обеспечивают плавный обмен между точностью и затратами и могут удивительно превышать более крупные модели на равных рассуждениях. LCPO может помочь резко снизить затраты на вывод в корпоративных приложениях, сэкономив тысячи жетонов в каждом раунде разговора с LLM.
Активность LLM приводит к более длинным кроваткам
Модели рассуждений, такие как OpenAI O1 и DeepSeek-R1, обучаются путем укрепления обучения (RL) для использования шкалы времени испытаний и генерации полицейских перед получением ответа. Эмпирические данные показывают, что когда модели «думают» дольше, они, как правило, действуют лучше по рассуждениям.
Например, R1 первоначально был обучен чистым RL без примеров, отмеченных человеком. Одним из пониманий было то, что по мере улучшения производительности модели она также научилась генерировать более длинные следов грязи.
В то время как в целом, длинные цепочки кроватки приводят к более точным ответам, они также создают компьютерную бутылку для применения шкалы моделей рассуждений. В настоящее время существует очень мало контроля над компьютерным бюджетом на время испытания, и последовательности могут легко распространяться до десятков тысяч токенов без значительного достижения. Были предприняты некоторые усилия по контролю продолжительности рассуждений цепочек, но они обычно разрушают производительность модели.
Длинная контролируемая политическая оптимизация (LCPO) объяснила
Классический метод RL обучает LLM только для достижения правильного ответа. LCPO изменяет эту парадигму, введя две цели обучения: 1) Получить правильный результат и 2) сохранить ограниченную Mud Chain в пределах определенной токеновой длины. Следовательно, если модель дает правильный ответ, но генерирует слишком много токенов к кожушке, она получит штраф и будет вынужден поставить цепочку рассуждений, которая достигает того же ответа, но с меньшим бюджетом токенов.
«Обученные LCPO модели учатся удовлетворять длинные ограничения при оптимизации рассуждений, а не полагаться на эвристику ручной работы», – пишут исследователи.
Они предлагают два аромата LCPO: (1) LCPO-EXACT, который требует, чтобы генерируемые рассуждения были точно равны длине цели, и (2) LCPO-MAX, который требует, чтобы выходной выход больше не был целевой длиной.
Чтобы проверить метод, исследователи настроили модель рассуждения параметров 1,5B (QWEN-Distiled-R1-1,5B) на две предлагаемые схемы LCPO для создания моделей L1-MAX и L1, освобожденных. Обучение было основано на математических проблемах с отличительными и контролируемыми результатами. Тем не менее, оценка включала математические задачи, а также задачи не распределения, такие как метод измерения массового метода понимания многотаскулярного языка (MMLU) и справочная справочная справка на уровне выпускников (GPQA).
Их результаты показывают, что модели L1 могут точно сбалансировать бюджет и рассуждения токенов и рассуждения, плавно интерполируя между короткими, эффективными рассуждениями и более длинными, более точными рассуждениями, побуждая модель с различными длинными ограничениями. Важно отметить, что в некоторых задачах модели L1 могут воспроизводить производительность оригинальной модели рассуждений с более низким бюджетом токена.
По сравнению с S1 – единственным другим методом, который ограничивает длину моделей Cot – L1, показывает до 150% прирост эффективности при различных бюджетах токена.
«Это важное различие может быть связано с двумя ключевыми факторами», – пишут исследователи. «(1) L1 интеллектуально адаптирует свою кровать, чтобы соответствовать указанным длинным ограничениям, не предотвращая рассуждения, в то время как S1 часто отрезает в середине размывания; и (2) L1 явно обучен генерировать высококачественные рассуждения различной длины, эффективно отвлекая паттерны рассуждений более длинных цепей».
L1 также превышает его нерезонансной эквивалент на 5% и GPT-4O при 2% на равной длине генерации. «Что касается наилучших знаний, это первое доказательство того, что модель 1,5B может превышать модели страны, такие как GPT-4O, несмотря на использование той же длины поколения»,-пишут исследователи.
Интересно, что грязь модели показывает, что она учится корректировать свой процесс рассуждений на основе бюджета токена. Например, при более длинных бюджетах модель имеет тенденцию генерировать токены, связанные с самокоррекцией и контролем (то есть «но» и «ждать») и заключающегося рисунка («следовательно» и «так»).

Помимо улучшенного контроля длины в стандартных математических рассуждениях, модели L1 удивительно хорошо обобщают задачи, включая GPQA и MMLU.
Эта новая линия исследований моделей, которые могут скорректировать их рассуждения, может иметь важное использование для реальных приложений, что дает предприятиям возможность масштабировать модели рассуждений без удаленных расходов. Это мощная альтернатива простому развертыванию более крупных, более дорогих моделей и может быть ключевым фактором в том, чтобы сделать ИИ более экономически жизнеспособным для приложений с большим объемом, реальными, реальными приложениями.
Исследователи открыли код LCPO и веса для моделей L1.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link