Исследователи CMU представляют Paprika: тонкий подход, который позволяет языковым моделям разрабатывать общие возможности принятия решений, не ограничиваемся конкретной средой

В сегодняшнем быстро развивающемся ландшафте искусственного интеллекта одна постоянная задача-это оснащение языковых моделей с помощью надежных способностей к принятию решений, которые выходят за рамки взаимодействия с одним поворотом. Традиционные крупные языковые модели (LLMS) преуспевают при создании когерентных ответов, но часто борются с многоэтапным решением проблем или взаимодействием с динамическими средами. Этот недостаток в значительной степени связан с характером учебных данных, что редко отражает структурированные, интерактивные переживания, которые требуют реальных сценариев. Кроме того, непосредственное развертывание моделей для сбора реальных данных взаимодействия может быть как дорогостоящим, так и рискованным. Следовательно, существует четкая потребность в методологиях, которые обучают LLMS исследовать, собирать соответствующую информацию и принимать вдумчивые, последовательные решения безопасным и контролируемым образом.

В ответ на эти проблемы исследователи из университета Карнеги -Меллона разработали подход, известный как паприка. Этот метод предназначен для наделения языковых моделей с общими возможностями принятия решений, которые не ограничиваются какой-либо отдельной средой. Вместо того, чтобы полагаться на традиционные учебные данные, паприка использует данные синтетического взаимодействия, генерируемые для разнообразного набора задач. Эти задачи варьируются от классических игр догадений, таких как двадцать вопросов, до головоломков, таких как Mastermind и даже сценарии, имитирующие взаимодействие обслуживания клиентов. Обучая этих различных траекторий, модель учится корректировать свое поведение на основе контекстуальной обратной связи из своей среды, без необходимости дополнительных обновлений градиента. Этот подход побуждает модель принять более гибкую, встроенную стратегию обучения, которая может быть применена к ряду новых задач.

Технические детали и преимущества

Методология Паприки построена на двухэтапном процессе точной настройки. Первый этап включает в себя обнаружение LLM большому набору синтетических траекторий, генерируемых с использованием метода, называемого отбора проб Min -P, который гарантирует, что данные обучения являются разнообразными и согласованными. Этот шаг позволяет модели испытать широкий спектр стратегий взаимодействия, в том числе как успешное, так и менее эффективное поведение в принятии решений. Второй этап уточняет модель с использованием смеси контролируемой точной настройки (SFT) и цели прямой оптимизации предпочтений (DPO). В этой настройке сравниваются пары траекторий, и модель постепенно учится, чтобы предпочтение отдавать предпочтение тем, кто ведут более непосредственно к успеху задачи.

Признавая, что не все задачи одинаково сложны, Паприка также интегрирует стратегию обучения учебным планам. Этот компонент динамически выбирает задачи, основанные на их потенциале, чтобы предложить значимый опыт обучения. Расстанавливая приоритеты задач, которые дают более богатые сигналы обучения, этот подход повышает эффективность данных и помогает модели лучше обобщать его стратегии принятия решений. Комбинация этих методов приводит к утонченной модели, которая является искусственной при принятии последовательных решений в разных контекстах.

Результаты и понимание

Практические преимущества метода паприки очевидны в его эмпирических результатах. В одном иллюстративном примере подход был применен к задаче по лучшему выбору бандита – сценарий, который требует тщательного распределения ограниченного бюджета выборки для определения наиболее перспективного варианта. Здесь паприка увеличила средний показатель успеха, демонстрируя заметное улучшение стратегического принятия решений. В более широком смысле, когда модель была обучена траекториям из набора из десяти разнообразных задач, ее общая производительность улучшилась примерно на 47% по сравнению с базовой моделью, достигнутой примерно с 22 500 тренировочными траекториями.

Дальнейшие эксперименты с использованием оценки «Отсечка-один» показали, что стратегии принятия решений, изученные через паприку, могут обобщить до ранее невидимых задач. Например, когда модель была обучена всей группе задач, она все равно выполняла конкурентоспособную в пропущенной группе. Этот вывод свидетельствует о том, что стратегии, разработанные с помощью этого метода точной настройки, не приспособлены к конкретным задачам, но могут быть переданы в разные сценарии принятия решений. Более того, исследование, включающее обучение учебным планам, показало, что селективно отбор проб учета в соответствии с их трудностями может привести к дополнительным улучшениям, усиливая стоимость адаптированного подхода, управляемого данными к выбору задач.

Заключение

Таким образом, паприка представляет собой вдумчивый и измеренный подход к преодолению разрыва между статическим пониманием языка и динамичным последовательным принятием решений. Используя данные синтетического взаимодействия и используя тщательно разработанный двухэтапный процесс точной настройки, дополненный обучением учебным планам, исследователи CMU продемонстрировали, что LLMS можно усовершенствовать в более адаптируемых лицах, принимающих решения. Этот метод, вместо того, чтобы прибегать к настройке конкретной задачи, готовит модели для участия в новых проблемах с минимальным дополнительным обучением.

Возможность взаимодействия с внешними средами, собирать соответствующую информацию и корректировку решений на основе обратной связи необходима для любой системы, предназначенной для автономной работы. Несмотря на то, что остаются проблемы, такие как обеспечение надежной стартовой модели и управление вычислительными затратами на генерацию синтетических данных, Paprika предлагает многообещающий путь для разработки более универсальных систем ИИ. В конечном счете, поскольку наши модели продолжают продвигаться, подходы, такие как паприка, будут важны для создания инструментов, которые не только опытны в понимании языка, но и способны навигации на сложные, реальные задачи принятия решений с тонкостью и заботой.


Проверить Бумага, страница Github и модели на обнимающееся лицо. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top