Othink-r1: двойная структура рассуждения для вырезания избыточных вычислений в LLMS

Неэффективность статических рассуждений в цепочке мыслей в LRM

Недавние LRM достигают максимальной производительности, используя подробные рассуждения Cot для решения сложных задач. Тем не менее, многие простые задачи, с которыми они выполняют, могут быть решены меньшими моделями с меньшим количеством жетонов, что делает такие сложные рассуждения ненужными. Это повторяет человеческое мышление, где мы используем быстрые, интуитивные ответы для простых проблем и более медленное аналитическое мышление для сложных. В то время как LRM имитируют медленные, логические рассуждения, они генерируют значительно более длительные результаты, тем самым увеличивая вычислительные затраты. Современные методы снижения этапов рассуждений не имеют гибкости, ограничивая модели одним фиксированным стилем рассуждения. Существует растущая потребность в адаптивных рассуждениях, которые корректируют усилия в соответствии с трудностями задачи.

Ограничения существующих подходов на основе обучения и без обучения

Недавние исследования по повышению эффективности рассуждений в LRM могут быть классифицированы на две основные области: методы, основанные на обучении и без обучения. Стратегии обучения часто используют обучение подкреплению или тонкую настройку, чтобы ограничить использование токенов или корректировку глубины рассуждений, но они, как правило, следуют фиксированным моделям без гибкости. Подходы без обучения используют быстрое инженерное определение или обнаружение схемы, чтобы сократить результаты во время вывода; Тем не менее, им также не хватает адаптивности. Более поздняя работа сосредоточена на рассуждениях с переменной длиной, где модели корректируют глубину рассуждений на основе сложности задачи. Другие изучают «переоборудование», где модели излишне излишне. Тем не менее, лишь немногие методы позволяют динамическому переключению между быстрым и тщательным рассуждением – что -то, что эта статья обращается напрямую.

Представляем Othink-R1: динамическая структура быстрого/медленного рассуждения

Исследователи из Университета Чжэцзян и OPPO разработали Othink-R1, новый подход, который позволяет LRMS в умном и медленном мышлении, так же, как это делают люди. Анализируя модели рассуждений, они определили, какие шаги необходимы, а какие избыточны. С помощью другой модели, действующей в качестве судьи, они обучали LRMS адаптировать свой стиль рассуждения на основе сложности задач. Их метод снижает ненужные рассуждения более чем на 23% без потери точности. Используя функцию потерь и тонкие наборы данных, Othink-R1 превосходит предыдущие модели как в эффективности, так и в производительности по различным задачам по математике и вопросам.

Архитектура системы: обрезка рассуждений и оптимизация с двойной ссылкой

Структура Othink-R1 помогает LRM динамически переключаться между быстрым и медленным мышлением. Во-первых, он идентифицирует, когда LRM включают ненужные рассуждения, такие как сверхэксплуация или двойная проверка, по сравнению с тем, когда подробные шаги действительно необходимы. Используя это, он создает кураторский набор учебного заведения путем обрезки избыточных рассуждений и сохраняя ценную логику. Затем, во время точной настройки, специальная функция потерь уравновешивает оба стиля рассуждения. Эта потеря двойного ссылки сравнивает выходы модели как с быстрым, так и с медленным мышлением, что способствует гибкости. В результате Othink-R1 может адаптивно выбирать наиболее эффективный путь рассуждения для каждой проблемы, сохраняя точность и логическую глубину.

Эмпирическая оценка и сравнительная эффективность

Модель Othink-R1 была протестирована на более простых задачах QA и математике, чтобы оценить его способность переключаться между быстрыми и медленными рассуждениями. Используя такие наборы данных, как OpenBookqa, CommonSenseQA, ASDIV и GSM8K, модель продемонстрировала сильную производительность, генерируя меньше токенов при сохранении или повышении точности. По сравнению с базовыми показателями, такими как неживая и двойная формамера, Othink-R1 продемонстрировал лучший баланс между эффективностью и эффективностью. Исследования абляции подтвердили важность обрезки, ограничений KL и LLM-судьи в достижении оптимальных результатов. Тематическое исследование показало, что ненужные рассуждения могут привести к переосмыслению и снижению точности, подчеркивая силу Othink-R1 в адаптивных рассуждениях.

Вывод: к масштабируемым и эффективным системам гибридных рассуждений

В заключение, Othink-R1-это большая модель рассуждений, которая адаптивно переключается между режимами быстрого и медленного мышления для повышения как эффективности, так и производительности. Он рассматривает вопрос излишне сложных рассуждений в крупных моделях, анализируя и классифицируя этапы рассуждений как важные или избыточные. Объединив избыточные, сохраняя логическую точность, Othink-R1 снижает ненужные вычисления. Он также вводит потерю KL-дивергенции с двумя ссылками для укрепления гибридных рассуждений. Протестированный на задачах по математике и QA, он сокращает избыточность на 23%, не жертвуя точностью, демонстрируя обещание для создания более адаптивных, масштабируемых и эффективных систем рассуждений с ИИ в будущем.


Проверьте Бумага и страница GitHubПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 100K+ ML Subreddit и подписаться на Наша информационный бюллетеньПолем


Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.

Source link

Scroll to Top