Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше
Языковые модели могут лучше обобщать, когда оставляют, чтобы создать свои собственные решения, новое исследование Гонконгского университета и Калифорнийского университета Беркли показывает. Результаты, которые применяются как к крупным языковым моделям (LLMS), так и на языке зрения (VLMS), бросают вызов одному из основных убеждений моделей LLM Community-Ke, требуют примеров маркированного обучения. Фактически, исследователи показывают, что обучающие модели для слишком большого количества примеров ручной работы могут оказывать неблагоприятное влияние на способность модели обобщать до невидимых данных.
SFT против RL в модельном обучении
В течение долгого времени контролируемый хорошо набор (SFT) был золотым стандартом для обучения LLMS и VLMS. После того, как модель предварительно обучена на необработанных данных текста и изображения, компании и лаборатории искусственного интеллекта обычно поступают в большую базу данных примеров ручной работы, рассматриваемых/ответа или формата запроса/ответа. После SFT модель может страдать от дополнительных этапов обучения, таких как укрепление обратной связи человека (RLHF), где модель пытается выучить неявные человеческие предпочтения, основанные на сигналах, как соответствующие рейтинги или подобные/не нравится ответы модели.
SFT полезен для направления поведения модели на тип задач, которые создатели модели спроектировали ее. Тем не менее, сбор данных – это медленный и дорогой процесс, который является бутылкой для многих компаний и лабораторий.
Недавние события в LLMS вызвали интерес к подходам к чистому укреплению обучения (RL), где модель получает работу и позволяет учиться без примеров ручной работы. Наиболее важным примером является DeepSeek-R1, конкурент Openai O1, который в основном использовал укрепление обучения для изучения сложных задач.
Обобщение против напоминания
Одна из ключевых проблем машинного обучения (ML) уместна, если модель хорошо справляется с его обучающими данными, но не может обобщать невидимые примеры. Во время обучения модель производит ложное впечатление, чтобы узнать задачу, в то время как на практике она только что запомнила свои примеры обучения. В крупных и сложных моделях ИИ разделение обобщения хранения может быть затруднено.
Новое исследование посвящено навыкам обобщения RL и SFT обучения в области текста и визуальных рассуждений. Для рассуждений о текстах, LLM, обученный набору правил, должен быть в состоянии обобщать варианты этих правил. В визуальных рассуждениях VLM должен оставаться последовательным в действии задачи против изменений в различных аспектах визуального ввода, таких как цвет и пространственный макет.
В своих экспериментах исследователи использовали две репрезентативные задачи. Во -первых, были общие моменты, ссылка, которая оценивает возможности арифметических рассуждений модели. Модель получает четыре карты, такие как описания текста или изображения, и ее просят объединить их для достижения целевого номера. Чтобы изучить генерализацию на основе управляющих, исследователи обучили модель, используя один набор правил, впоследствии оценили ее, используя другое правило. Для визуального обобщения они обучили модель с картами одного цвета и проверили его производительность с картами других цветов и многочисленными схемами.
Вторая задача-V-IRL, который проверяет возможности рассуждения модели в навигационном домене с открытым миром, которая использует реалистичный визуальный ввод. Эта задача также поставляется в версиях с чистым языком и визуальным языком. Исследователи оценили обобщение путем изменения вида инструкций и визуальных представлений, которые модель была обучена и протестирована.

Они организовали свои тесты на Llama-3.2-Vision-11b, нагревая модель, обучая их небольшими данными SFT, в конечном итоге создавая отдельные версии для каждой задачи и обучающей парадигмы. Для каждой задачи они особенно масштабировали обучение по RL и SFT. Процесс SFT обучает модель дополнительными решениями ручной работы, в то время как RL позволяет модели генерировать много решений для каждой проблемы, оценивать результаты и обучать правильные ответы.
Результаты показывают, что укрепление обучения последовательно улучшает эффективность примеров, которые резко отличаются от учебных данных. С другой стороны, SFT, по-видимому, запоминает правила обучения и не обобщает примеры не распределения (OOD). Эти наблюдения применяются как для текстовых, так и для мультимодальных настроек.

Последствия для реальных приложений
Хотя их эксперименты показывают, что RL лучше обобщать, чем SFT, исследователи также обнаружили, что SFT помогает стабилизировать формат выхода модели и имеет решающее значение, позволяющее RL достичь их повышения производительности. Исследователи обнаружили, что без первоначальной стадии SFT обучение RL не достигло желательных результатов.
Это немного отличается от результатов, полученных от нулевого уровня DeepSeek-R1, которое было пост обучено чистому RL. Исследователи предполагают, что это может быть связано с различной обратной моделью, которую они использовали в своих экспериментах.
Понятно, что в подходах к весу RL существует много нетронутого потенциала. Для случаев использования, которые имеют проверенные результаты, пусть модели учатся сами по себе часто могут привести к неожиданным результатам, которые люди не могли создать сами. Это может быть очень удобно в настройках, где создание примеров ручной работы может быть утомительным и дорогим.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link