Tencent AI Lab представляет неконтролируемое префикс-тонкую настройку (UPFT): эффективный метод, который обучает модели только на первых 8-32 токенах отдельных самогенерированных решений

March 2, 2025

Dr. Ashish V

Выполнение более эффективного подхода к тонкой настройке в больших языковых моделях, недавняя работа исследователей из Tencent AI Lab и Китайского университета Гонконга представляет неконтролируемую префиксу тонкую настройку (Upft). Этот метод уточняет способности к рассуждениям модели, сосредотачиваясь исключительно на первых 8-32 токенах его сгенерированных ответов, а не на обработке полных траекторий решения. Таким образом, UPFT стремится запечатлеть критические ранние этапы рассуждений, которые распространены по нескольким путям решения, при этом значительно снижая вычислительные накладные расходы.

Большие языковые модели преуспели в таких задачах, как понимание языка и поколение, но все же улучшение их возможностей рассуждений остается сложной задачей. Традиционные методы тонкой настройки основаны либо на больших количествах аннотированных данных, либо на процедуры, которые генерируют несколько полных ответов, а затем отфильтровали ошибки посредством выборки отклонения. Эти традиционные методы являются как ресурсными, так и в зависимости от наличия надежных, помеченных данных. Кроме того, обширная обработка полноразмерных ответов может включать избыточную информацию; Наиболее информативный контент для рассуждений появляется на ранних стадиях вывода модели. Признавая это, Upft сужает фокус на начальные токены – часть, в которой начинаются рассуждения и возникают общие структурные элементы – тем самым устранение как эффективность, так и зависимость от дорогого надзора.

Представление неконтролируемого префикса тонкой настройки

Работа начинается с наблюдения, называемого Префикс самосогласованностьПолем Было отмечено, что по различным траекториям решения, генерируемых для той же проблемы, начальные шаги рассуждения, как правило, удивительно похожи. Эти ранние жетоны часто обеспечивают общий фундамент, даже когда расходятся более поздние части рассуждений. Upft опирается на это понимание путем обучения моделей, используя только эти минимальные префиксы. Метод устраняет необходимость в подробных аннотациях или для создания и фильтрации нескольких полных ответов, что позволяет модели сосредоточиться на создании надежной структуры рассуждений на раннем этапе. По сути, Upft использует естественную последовательность в первых нескольких токенах модели, чтобы направлять свой процесс обучения.

Технические детали и преимущества

По своей сути, Upft Reframise учебный процесс с использованием принципов байесовских рассуждений. Вместо того, чтобы рассмотреть все следы рассуждения, метод разбивает вероятность достижения правильного ответа на два компонента: охват и точность. Покрытие относится к диапазону возможных путей рассуждений, которые вытекают из данного префикса, в то время как точность указывает на вероятность того, что после установки конкретного префикса оставшиеся токены приведут к правильному ответу. Обучаясь на этих ранних токенах, Upft максимизирует преимущества обоих элементов, что вызывает баланс между изучением разнообразных подходов к рассуждениям и обеспечением надежных результатов.

Практически этот метод предлагает четкие преимущества. Сосредоточение внимания на префиксе значительно уменьшает объем данных токена, необходимых во время обучения. Эмпирические исследования показывают, что UPFT может сократить количество токенов, обрабатываемых до 95% по сравнению с подходами полного ток. Кроме того, путем выдачи с необходимостью отбора проб отказа метод упрощает обучающий трубопровод, уменьшая как время, так и требования к памяти. Этот подход особенно привлекателен для приложений, где вычислительные ресурсы ограничены или когда крупные помеченные наборы данных недоступны.

Эмпирическое понимание и данные

Производительность воспитания была оценена по нескольким установленным показателям рассуждений, включая GSM8K, Math500, AIME2024 и GPQA. В этих испытаниях модели, которые были настраивались вверх с восхождением, выполнялись сравнительно с тех, которые обучались с использованием обычных, более ресурсоемких методов. Например, при применении к модели QWEN2,5-MATH-7B-инструктора UPFT достиг улучшения средней точности, используя значительно меньше жетонов во время обучения и вывода. На критериях, которые требуют сложных рассуждений, таких как AIME2024, метод продемонстрировал заметное повышение производительности, что позволяет предположить, что этапы ранних рассуждений содержат важные сигналы, необходимые для решения проблем.

Кроме того, эффективность UPFT в снижении вычислительных затрат заслуживает внимания. Работая с значительно более короткими последовательностями токенов, процесс обучения становится быстрее и менее требовательным к оборудованию, что может быть особенно полезным в сценариях, когда быстрое развертывание или более низкое потребление энергии являются приоритетом.

Заключение

Внедрение неконтролируемой префиксы тонкой настройки представляет собой вдумчивый шаг к более эффективным и доступным методам для улучшения рассуждений в крупных языковых моделях. Концентрируясь на начальных токенах – те, которые инкапсулируют ядро процесса рассуждения, этот подход снижает необходимость обширных меченных наборов данных и сложных стратегий отбора проб. Вместо того, чтобы полагаться на крупномасштабные аннотации или выборку отклонения, чтобы исправить ошибки в более позднем процессе рассуждения, UPFT уточняет модели, сосредотачиваясь на частях ответа, которые являются как последовательными, так и информативными.

Размышляя о необходимости дорогих помеченных данных и отбора проб, восхождение предлагает более упорядоченную альтернативу. Он предлагает метод, в котором минимальный, неконтролируемый процесс точной настройки может привести к значительному улучшению производительности рассуждения. Этот изысканный подход не только делает процесс более эффективным ресурсным, но и открывает дверь для разработки моделей самосовершенствования более доступными способами, бросая вызов некоторым из традиционных предположений о том, что требуется для эффективного обучения модели.

Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

Aswin AK является стажером консалтинга в MarkTechPost. Он получает двойную степень в Индийском технологическом институте, Харагпур. Он увлечен наукой данных и машинным обучением, обеспечивая сильный академический опыт и практический опыт решения реальных междоменных задач.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Dr. Ashish V

Представление неконтролируемого префикса тонкой настройки

Технические детали и преимущества

Эмпирическое понимание и данные

Заключение

You might also enjoy

CTGT VB ट्रांसफॉर्म 2025 पर सर्वश्रेष्ठ प्रस्तुति शैली का पुरस्कार जीतता है

Начало работы с Mlflow для оценки LLM

麻省理工學院和大眾楊百翰啟動聯合種子計劃，以加速健康創新|麻省理工學院新聞

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace