Меньше больше: UC Berkeley и Google разблокируют потенциал LLM с помощью простой выборки


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Новая статья из Google Research и Калифорнийского университета, исследователей Беркли, доказывает, что удивительно простой доступ к шкале тестирования может ускорить возможности рассуждений крупных языковых моделей (LLMS). Ключ? Встряхивая поиск на основе образцов, техника, которая зависит от создания нескольких ответов и использования самой модели для их управления.

Основным выводом является то, что даже минималистская реализация поиска образцов с использованием случайной выборки и самостоятельного определения может повысить рассуждения таких моделей, как Gemini 1.5 из-за того, что O1 Glance на популярные ссылки. Результаты могут иметь важные последствия для корпоративных приложений и оспаривать предположение, что для достижения наивысшей производительности всегда необходимы высокоспециализированная обучение или сложные архитектуры.

Границы текущего подъема на компьютер на время испытания

Текущий популярный метод восхождения на время испытания в LLMS заключается в обучении модели, укрепляя обучение для получения более длинных ответов со следами в цепей (COT). Этот подход используется в таких моделях, как Openai O1 и DeepSeek-R1. Хотя это полезны, эти методы обычно требуют существенных инвестиций в этап обучения.

Другим методом шкалы тестирования является «самосогласованность», где модель генерирует несколько ответов на опрос и выбирает ответ, который появляется чаще. Самоустренность достигает своих ограничений при решении сложных проблем, так как в этих случаях наиболее повторный ответ не обязательно является правильным.

Поиск на основе образцов предлагает более простую и очень масштабируемую альтернативу восхождению на время испытания: пусть модель генерирует несколько ответов и выберет лучшее с механизмом управления. Поиск на основе образцов может выполнять другие стратегии компьютерного масштаба времени тестирования, и, как пишут исследователи в своей статье, «он также имеет уникальное преимущество в том, что он смущенная параллель и позволяет произвольно лазить: просто выборки больше ответов».

Что еще более важно, поиск на основе образцов может быть применен к любому LLM, включая тех, кто не был явно обучен для рассуждения.

Как работает поисковые образцы

Исследователи сосредотачиваются на минималистской реализации поиска на основе выборки, используя языковую модель, чтобы генерировать ответы кандидатов и контролировать их. Это процесс «самоконтроля», в котором модель оценивает свои собственные результаты, не полагаясь на внешние принудительные реакции или символические системы управления.

Образец, основанный на поиске: VentureBeat

Алгоритм работает с несколькими простыми шагами:

1 – Алгоритм начинается с создания набора решений для кандидатов для данной проблемы с использованием языковой модели. Это дает модели одинаковое обещание несколько раз и использует нулевую температуру для создания множества ответов.

2 – Ответ каждого кандидата испытывает процесс подтверждения, в котором LLM много раз просят определить, является ли ответ правильным. Затем результаты управления в среднем создают окончательный контрольный балл для ответа.

3— Алгоритм выбирает самый высокий ответ в качестве окончательного ответа. Если многочисленные кандидаты находятся в ближайшем диапазоне друг друга, LLM просят сравнить их парами и выбрать лучшее. Ответ, который выигрывает самые двойные сравнения, выбран в качестве окончательного ответа.

Исследователи рассмотрели две ключевые оси для восхождения на время испытания:

Пример: количество ответов, которые модель генерирует для каждой входной проблемы.

Проверка: количество показателей подтверждения, рассчитанных для каждого сгенерированного решения

В качестве поиска на основе выборки сравнивается с другими методами

Исследование показало, что рассуждающая активность продолжает улучшаться за счет поиска на основе отбора проб, даже когда вычисления времени тестирования масштабируются гораздо больше, чем то, что самосогласованность насыщена.

В достаточном масштабе эта минималистская реализация значительно ускоряет точность рассуждения в отношении рассуждений, таких как AIME и математика. Например, производительность Gemini 1.5 Pro превышает предварительный просмотр O1, который был явно обучен по проблемам рассуждений, а Flash Gemini 1.5 превысила Gemini 1.5 Pro.

«Это не только подчеркивает важность поиска образцов для масштабной способности, но и предполагает полезность поиска образцов в качестве простой базовой линии, на которой можно сравнить другие стратегии компьютерного масштаба и измерения компьютерных масштабов и измерить аутентичные улучшения в возможностях поиска моделей», -пишут исследователи.

Стоит отметить, что, хотя результаты отбора проб поисков впечатляют, затраты также могут стать запрещенными. Например, с 200 образцами и 50 этапами управления на выборку, обследование AIME принесет около 130 миллионов токенов, что стоит 650 долларов с Gemini 1.5 Pro. Это, однако, является очень минималистским подходом к поиску образцов, и он соответствует методам оптимизации, предлагаемым в других исследованиях. С более разумными образцами и методами управления затраты на вывод могут быть значительно снижены, используя более мелкие модели и генерируя меньше токенов. Например, используя Flash Gemini 1.5 для удовлетворения подтверждения, затраты снижаются до 12 долларов за вопрос.

Эффективные стратегии самоконтроля

Продолжаются дебаты о том, может ли LLMS проверить свои собственные ответы. Исследователи определили две ключевые стратегии для улучшения самоверовой передачи с использованием компьютера времени тестирования:

Непосредственно сравнивая соответствующие кандидаты: Разрушения между решениями -кандидатами решительно указывают на возможные ошибки. Предоставляя контроллеру несколько ответов на сравнение, модель может лучше идентифицировать ошибки и галлюцинации, обрабатывая основную слабость LLMS. Исследователи описывают это как применение «подразумеваемого лазания».

Перезапись для конкретной задачи: Исследователи предполагают, что оптимальный стиль вывода LLM зависит от задачи. Цепная мысль эффективна в решении задач рассуждения, но ответы легче проверить, когда написано в более формальном, математически традиционном стиле. Супервайзеры могут переписать кандидаты в более структурированный формат (например, теорему Lemo-Orication) до оценки.

«Мы предвидим модели самоконтроля, чтобы быстро улучшиться, так как модели учатся использовать принципы неявного лазания и фитнеса в стиле выхода и стимулируют улучшенные показатели масштаба для поиска образцов»,-пишут исследователи.

Последствия для реальных приложений

Исследование доказывает, что относительно простая техника может достичь впечатляющих результатов, возможно, снизить потребность в сложных и дорогих модельных архитектурах или режимах обучения.

Это также масштабируемая техника, позволяющая компаниям повысить производительность, назначая больше компьютерных ресурсов для отбора проб и проверки. Это также позволяет разработчикам толкать модели страны помимо их ограничений на сложные задачи.

«Учитывая, что он завершает другие стратегии компьютерного масштаба времени тестирования, он параллелизирован и обеспечивает произвольное масштабирование и признает простые реализации, которые, очевидно, являются эффективными, мы ожидаем, что выборы, основанные на образцах, будут играть важную роль, поскольку языковые модели поручены решать все более сложные проблемы со все более крупными компьютерными почками»,-пишут исследователи.


Source link
Scroll to Top