Помимо статического искусственного интеллекта: Новая структура MIT позволяет учить моделям


Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше


Исследователи в MIT разработали структуру, называемую саморегулирующими языковыми моделями (Seals), которая позволяет большим языковым моделям (LLMS) постоянно учиться и адаптироваться, обновляя свои собственные внутренние параметры. SEAL обучает LLM генерировать свои собственные учебные данные и обновлять инструкции, позволяя ему постоянно поглощать новые знания и изучать новые задачи.

Эта структура может быть полезна для корпоративных приложений, особенно для агентов искусственного интеллекта, которые работают в динамических средах, где они должны постоянно обрабатывать новую информацию и адаптировать свое поведение.

Задача адаптации LLMS

В то время как модели крупных языков продемонстрировали замечательные навыки, адаптируйте их к конкретным задачам, интегрируйте новую информацию или освоение новых навыков рассуждений остаются важным препятствием.

В настоящее время, когда они сталкиваются с новой задачей, LLMS обычно учатся из данных «как есть», такими методами, как создание или встроенное обучение. Тем не менее, предоставленные данные не всегда находятся в оптимальном формате для модели эффективно учиться. Существующие подходы не позволяют модели разрабатывать свои собственные стратегии для лучшей трансформации и изучения новой информации.

«Многие случаи использования предприятий требуют не только фактического отзывания-они требуют более глубокой, постоянной адаптации»,-сказал VentureBeat, Jyo Pari, докторант в MIT и соавтор статьи. «Например, помощнику по кодированию может потребоваться усвоить конкретную программу программы компании, или модели клиента может потребоваться изучить уникальное поведение или предпочтения пользователя с течением времени».

В таких случаях временное восстановление уменьшается, и знания должны быть «запечены» в весах модели, чтобы оно влияло на все будущие ответы.

Создание самосовершенных языковых моделей

«В качестве шага к масштабируемой и эффективной адаптации языковых моделей мы предлагаем оснастить LLMS возможность генерировать свои собственные данные обучения и окончательные директивы для использования таких данных», – исследователи MIT в своей статье.

Обзор исходного кадра Источник: arxiv

Решением исследователей является герметизация, короткая до самодовольных языковых моделей. Он использует алгоритм обучения подкреплению (RL) для обучения LLM для создания «самостоятельных» инструкций языка, в которых указывается, как модель должна обновлять свои собственные веса. Эти самоотдачи могут реструктурировать новую информацию, создавать синтетические примеры обучения или даже определять технические параметры для самого процесса обучения.

Интуитивно понятный, Seal учит модели, как создать свое собственное руководство по личности. Вместо того, чтобы просто читать новый документ (необработанные данные), модель учится переписывать и переформатировать эту информацию в стиль, который может быть легче усвоить и интернационализировать. Этот процесс объединяет несколько ключевых областей исследований искусственного интеллекта, включая синтетические данные поколений, обучение улучшению и обучение времени тестирования (WEB).

Структура работает на системе с двумя петлями. В «Внутреннем цикле» модель использует самостоятельное восстановление для выполнения небольшого временного обновления до своих весов. В «внешнем цикле» система оценивает, улучшило ли это обновление производительность модели в целевой задаче. Если это так, модель получает положительное вознаграждение, укрепляя ее способность генерировать такую ​​эффективную самостоятельность в будущем. Со временем LLM становится экспертом по преподаванию.

В своем исследовании исследователи использовали одну модель для всей рамы уплотнения. Тем не менее, они также понимают, что этот процесс может быть взаимосвязан в «ученике -учителе». Специальная модель учителя может быть обучена генерировать эффективные самоотдачи для конкретной модели ученика, которая затем будет обновлена. Этот подход может обеспечить более особые и эффективные адаптивные трубопроводы в корпоративных условиях.

Печать в действии

Исследователи протестировали печать в двух ключевых доменах: доступ к знаниям (способность постоянно интегрировать новые факты) и обучение мало-выстрелу (способность обобщать из нескольких примеров).

Печать в знаниях
Печать в знаниях -Источник: arxiv

Для знания -привлечение, цель состояла в том, чтобы увидеть, сможет ли модель ответить на вопросы о текстовом проходе, не имея доступа к отрывку во время допроса. Создание Llama-3.2-1b в необработанном тексте обеспечил только незначительное улучшение по сравнению с базовой моделью.

Однако, когда модель уплотнения создала «самоотдачи», генерируя несколько «последствий» прохода и была обучена этим синтетическим данным, ее точность подскочила до 47%. Примечательно, что это превысило результаты использования синтетических данных, генерируемых гораздо большим GPT-4.1, что позволяет предположить, что модель научилась создавать для себя превосходный учебный материал.

Печать в Little-Shot Learning (Источник: Arxiv)
Запечатать в немногие источники обучения: arxiv

Для немногих уволенных школ исследователи проверили печать примеров абстрактного корпуса рассуждений (ARC), где модель должна решать визуальные головоломки. На фазе с самостоятельной энтузиацией модель должна была генерировать всю адаптивную стратегию, в том числе то, какие данные увеличиваются и инструменты для использования и какой скорость обучения применять.

SEAL достигла 72,5% успешной ставки, значительное улучшение по сравнению с 20% стоимостью, достигнутой без обучения RL, и 0% ставки стандартного в контексте.

Печать (красная линия) продолжает улучшаться с помощью циклов RL (источник: arxiv)
Печать (красная линия) продолжает улучшаться с помощью циклов RL Источник: arxiv

Последствия для бизнеса

Некоторые эксперты выступают, что поставка высококачественных, генерируемых человеком данных обучения может быть исчерпано в ближайшие годы. Прогресс может зависеть от «модели способности генерировать свой собственный сигнал высокого обучения», как сказали исследователи. Они добавляют: «Естественный следующий шаг-это мета-тренировка, выделенная моделью синтетического генератора данных, которая производит свежие корпорации, позволяя будущим моделям масштабировать и повысить эффективность данных, не полагаясь на дальнейший человеческий текст».

Например, исследователи предполагают, что LLM может принять сложные документы, такие как академические статьи или финансовые отчеты, и автономно генерировать тысячи объяснений и последствий для углубления его понимания.

«Этот итеративный цикл самовыражения и самопозначения может позволить моделям еще больше улучшать редкие или недопредставленные проблемы даже в отсутствие дальнейшего внешнего надзора»,-объясняют исследователи.

Эта способность особенно перспективна для строительства агентов ИИ. Агентство системы должны постепенно получать и сохранять знания, когда они взаимодействуют со своей средой. SEAL предоставляет устройство для этого. После взаимодействия агент мог синтезировать самоотдавление, чтобы вызвать тяжелое обновление, что позволило ему усвоить извлеченные уроки. Это позволяет агенту развиваться с течением времени, улучшать свою эффективность на основе опыта и уменьшить его доверие к статическому программированию или повторному человеческому руководству.

«SEAL демонстрирует, что крупные языковые модели не должны оставаться статичными после предварительной подготовки», – пишут исследователи. «Учимся генерировать свои собственные синтетические данные самоотдачи и применять их с легкими обновлениями, они могут автономно включать новые знания и адаптироваться к новым задачам».

Ограничения печать

Тем не менее, печать не является универсальным решением. Например, он может страдать от «катастрофического забвения», где постоянные сетевые циклы могут привести к модели, изучая свои более ранние знания.

«В нашей текущей реализации мы поощряем гибридный подход», – сказал Пари. «Предприятия должны быть избирательными в отношении того, какие знания достаточно важны, чтобы постоянно интегрироваться».

Фактические и развивающиеся данные могут оставаться во внешней памяти через тряпку, в то время как долгосрочные, поведенческие знания лучше подходят для обновлений тяжелого уровня с уплотнением.

«Этот вид гибридной стратегии памяти гарантирует, что правильная информация будет постоянной, не преувеличивая модель или внедряя ненужную забвение», – сказал он.

Стоит также упомянуть, что печать требует нетривиального времени, чтобы подать самодостаточные примеры и обучить модель. Это делает непрерывное, реальное редактирование недоступным в большинстве условий производства.

«Мы ожидаем более практичной модели развертывания, где система собирает данные в течение определенного периода времени, несколько часов или дня, а затем выполняет целевые самоотдачи в течение запланированных интервалов обновления»,-сказал Пари. «Этот подход позволяет предприятиям контролировать стоимость адаптации, но при этом пользоваться способностью SEAL усвоить новые знания».


Source link
Scroll to Top