Longpo: Улучшение выравнивания длинного контекста в LLMS за счет самооптимизированного обучения для предпочтения с коротким и длительным

LLMS демонстрировали впечатляющие возможности с помощью обширных методов предварительной подготовки и выравнивания. Однако, хотя они преуспевают в задачах с коротким контекстом, их производительность в сценариях с длинным контекстом часто не достигает недостаточного размера из-за неадекватного выравнивания с длинным контекстом. Эта проблема возникает из-за отсутствия высококачественных, длинных аннотированных данных, поскольку человеческая аннотация становится непрактичной и ненадежным для расширенных контекстов. Кроме того, генерирование синтетических данных с длинным контекстом с использованием LLMS является вычислительно дорогой и не имеет масштабируемости. Существующие методы выравнивания, такие как контролируемая тонкая настройка (SFT), обучение подкреплению от обратной связи человека (RLHF) и оптимизация прямой предпочтения (DPO), значительно улучшили показатели короткого контекста. Тем не менее, их эффективность в выравнивании длительного контекста остается ограниченной. Простое расширение краткосрочных наборов данных оказалось недостаточным, а текущие стратегии выравнивания приоритет приоритетным знания о коротком контексте за счет долгосрочных возможностей. В результате, даже продвинутые модели, такие как GPT-4, которые преуспевают в задачах с коротким контекстом, могут недостаточно эффективны в настройках с длинным контекстом по сравнению с более мелкими моделями, оптимизированными для расширенного контекста.

Исследователи изучили различные стратегии расширения длины контекста LLM для решения этих проблем, включая масштабирование вращающихся положений о роторных положениях, постоянное предварительное подготовку к длительным корпусам и иерархические механизмы внимания. Хотя эти методы повышают производительность с длинным контекстом, они часто требуют обширных вычислительных ресурсов или данных, аннотируемых человеком, ограничивая их масштабируемость. Недавние исследования подчеркнули потенциал самоокупающих LLMS, где модели итеративно улучшаются путем обучения самоогенерированным реакциям, ранжированным с помощью таких методов, как LLM-как сужу. Используя самообслуживание и обучение обратному переходу, LLMS может уточнить свои возможности с длинным контекстом без внешних аннотаций. Этот подход представляет собой многообещающее направление для разработки LLM с длинным контекстом, которое поддерживает маттер с краткосрочным и длительным контекстом, в то же время минимизируя зависимость от дорогостоящих человеческих аннотаций.

Исследователи из учреждений, включая Национальный университет Сингапура, Академии Дамо и Alibaba Group, предлагают Longpo, что позволяет LLMS с коротким контекстом для самостоятельных заданий для задач с длинным контекстом. Longpo использует самогенерированные данные о предпочтениях с коротким до длительным В нем используется ограничение KL с коротким до длиной для поддержания производительности короткого контекста. Применяемый к Mistral-7B-инстакции, Longpo достигает значительного повышения производительности, превосходя наивное SFT и DPO, соответствуя превосходным LLM, таким как GPT-4-128K, не требуя обширных тренировок с длинным контекстом или аннотации человека.

Longpo (оптимизация с коротким до длиной) позволяет LLM с коротким контекстом развиваться в модель с длинным контекстом, сохраняя при этом свои исходные возможности. Он использует данные о предпочтениях с коротким и длительным для руководства обучением без внешней аннотации. Подход вводит ограничение на основе дивергенции KL, чтобы сбалансировать краткосрочные и длительный контекст. Longpo следует за итеративным процессом самоотражения, где модель с коротким контекстом генерирует обучающие данные для постепенно более длительных контекстов. Модель обучается с использованием многопрофильных объективных, агрегирующих ответов в разных кусках длинных документов. Longpo включает в себя отрицательную потерю логарифмического правдоподобия по всем выбранным последовательностям, чтобы обеспечить стабильность, уточняя выравнивание длинного контекста при сохранении качества короткого контекста.

Исследование оценивает эффективность Longpo в течение двух сравнений: (1) против SFT и DPO, обученных одной и той же модели и набору данных и (2) против современных LLMS LOL-Context. Используя MISTRAL-7B, LongPO последовательно превосходит SFT и DPO на 10–20+ точек по задачам при сохранении производительности короткого контекста. Улучшение обусловлено его явной интеграцией предпочтений с коротким до длиной. Longpo также превзойдет несколько моделей длинного контекста аналогичной шкалы и даже соперничает с GPT-4-128K в определенных критериях. Исследования абляции подтверждают, что короткие до длительного ограничения Longpo и потеря NLL значительно повышают производительность, подчеркивая его эффективность в передаче знаний от коротких в длинные контексты без обширных ручных аннотаций.

В заключение, Longpo предназначена для выравнивания LLM для задач с длинным контекстом путем использования своих неотъемлемых возможностей для короткого контекста, не требуя внешних аннотаций. Он использует самогенерированные данные о предпочтениях с коротким до длительным Ограничение дивергенции KL гарантирует, что производительность короткого контекста сохраняется во время обучения. Применяемый к Misstral-7B-Instruct-V0.2, Longpo сохраняет максимальный уровень короткого контекста, в то же время значительно повышая производительность с длинным контекстом, превосходя SFT DPO и даже конкурируя с такими моделями, как GPT-4-128K. Этот подход подчеркивает потенциал знаний внутренних моделей для эффективной адаптации с длинным контекстом без обширной ручной маркировки.


Проверить Бумага и GitHub Repo. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.

🚨 Рекомендуемая Платформа ИИ с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top