Alphaone: универсальная структура времени испытания для модуляции рассуждений в моделях ИИ

June 9, 2025

Dr. Ashish V

Большие модели рассуждений, часто работающие на крупных языковых моделях, все чаще используются для решения проблем высокого уровня в математике, научном анализе и генерации кода. Центральная идея состоит в том, чтобы имитировать два типа познания: быстрые ответы для более простых рассуждений и преднамеренная, более медленная мысль о более сложных проблемах. Это двойное мышление отражает то, как люди переходят от интуитивных реакций к аналитическому мышлению в зависимости от сложности задач, принципа, который стимулирует инновации в когнитивном моделировании и структуре рассуждения искусственного интеллекта.

Одна постоянная проблема возникает из-за неспособности модели самостоятельно регулировать эти сдвиги между быстрым и медленным мышлением. Вместо того, чтобы соответствовать требованиям задач, модели, как правило, не имеют никакого уровня фиксированных шаблонов, что приводит к преждевременным выводам или чрезмерной обработке. Эта неэффективность становится особенно очевидной при обработке задач, которые требуют деликатного баланса обсуждения и быстроты. Неспособность оптимизировать этот переход ограничил точность рассуждений этих моделей, часто приводит к ошибкам или ненужным вычислениям, особенно в приложениях с высокими ставками, таких как конкурентные математические проблемы или анализ кода в реальном времени.

Чтобы справиться с этим, предыдущие решения ввели подходы масштабирования времени теста. Стратегии параллельного масштабирования используют несколько выходов из модели, а затем выберите лучшие из них, используя такие показатели, как самосогласованность или недоумение. Напротив, последовательное масштабирование изменяет, как модель со временем является ограничением или поощрением формирования длительных цепочек мышления. Одним из примеров является цепочка метода черновика, которая ограничивает шаги рассуждения до строгого количества слов, чтобы уменьшить переоборудование. Другой подход, S1, распространяется на медленные рассуждения в конце, добавляя токены «подождать». Тем не менее, эти методы часто не имеют синхронизации между продолжительностью рассуждений и планированием медленных переходов мышления, что не дает универсального решения, которое эффективно адаптирует процессы рассуждений.

Исследователи из Университета Иллинойса Урбана-Шампейн и Калифорнийского университета в Беркли представили Alphaone, которая привносит новую систему модуляции для контроля динамики рассуждений во время теста. Alphaone представляет концепцию, называемую «альфа -моментом», контролируемой универсальным параметром α, которая определяет, когда модель переходит от медленных к быстрым рассуждениям. Эта структура изменяет процесс рассуждения, настраивая как продолжительность, так и структуру мышления, что позволяет объединить и расширить предыдущие методы с помощью более адаптируемой стратегии для выполнения сложных задач рассуждения.

Механизм разделен на две основные фазы. В фазе до альфа альфаоне инициирует медленные рассуждения, используя вероятностное график, в котором вводит токен «ждать» после структурных разрывов, таких как «\ n \ n», управляемый процессом Бернулли. Эта вставка не является статической, но на основе пользовательской функции, которая регулируется с течением времени, например, с использованием линейного шаблона отжига, чтобы сужать медленное мышление. Как только модель попадает в альфа-момент, фаза после альфа начинается с замены токенов «подождать» явным токеном в конце концов «». ». Это обеспечивает решающий переход к быстрому мышлению, смягчению инерции, вызванной длительными медленными рассуждениями и обеспечением эффективного генерации ответов.

Alphaone продемонстрировала превосходные результаты по шести тестам по математике, науке и генерации кодов. For example, using the DeepSeek-R1-Distill-Qwen-1.5B model, ALPHAONE boosted accuracy in AMC23 from 57.5% to 70.0% while reducing average token length from 5339 to 4952. Similar gains were noted with larger models: with the 7B model, performance on OlympiadBench rose from 50.4% to 55.7%, and with the 32B Qwen QwQ model, Производительность в AIME24 подскочила с 40,0% до 53,3%. В среднем, во всех моделях и задачах, альфаоне повышала точность на +6,15% и использовал меньше токенов по сравнению со стандартными моделями и другими базовыми уровнями, такими как S1 и цепь проекта.

Эти результаты подтверждают, что управление потоком между медленными и быстрыми рассуждениями имеет решающее значение для достижения лучшей производительности в сложной решении проблем. Включив структурированную модуляцию через универсальную структуру, Alphaone разрешает предыдущую неэффективность и открывает масштабируемый, эффективный путь вперед для моделей рассуждений. Подход демонстрирует, как вдумчивое планирование познания познания в области искусственного интеллекта может принести практические, измеримые преимущества в производительности и эффективности ресурсов.

Проверьте Бумага, страница GitHub и Project Page. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 98K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем

Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

Source link

Alphaone: универсальная структура времени испытания для модуляции рассуждений в моделях ИИ

Dr. Ashish V

You might also enjoy

लोन नहीं चुका पा रहे? RBI ने दी बड़ी राहत, अब बैंक नहीं कर पाएंगे परेशान

High Court Peon: हाई कोर्ट चपरासी पदों भर्ती योग्यता दसवीं पास आवेदन प्रक्रिया ऑनलाइन

सोलर रूफटॉप सब्सिडी योजना के नए आवेदन प्रक्रिया शुरू, यहाँ से करे आवेदन Solar Rooftop Subsidy Yojana

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace