Qwenlong-L1 решает длинные контекстуальные рассуждения, которые пьют текущие LLMS


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Alibaba Group представила Qwenlong-L1, новую структуру, которая позволяет большим языковым моделям (LLMS) разумно в чрезвычайно длинных входах. Эта разработка может разблокировать новую волну корпоративных приложений, которые требуют, чтобы модели понимали и извлекали понимание из комплексных документов, таких как подробные корпоративные регистрации, долгие финансовые отчеты или сложные юридические контракты.

Задача длинных рассуждений для ИИ

Последние достижения в больших моделях рассуждений (LRM), особенно путем укрепления обучения (RL), значительно улучшили свои проблемы для решения проблем. Исследования показывают, что при обучении с конфигурацией RL LRM получают навыки, аналогичные человеческому «медленному мышлению», где они разрабатывают сложные стратегии для решения сложных задач.

Тем не менее, эти улучшения наблюдаются в основном, когда модели работают с относительно короткими текстами, как правило, около 4000 жетонов. Способность этих моделей масштабировать их рассуждения в гораздо более длинных контекстах (например, 120 000 токенов) остается серьезной проблемой. Такое длинное рассуждение требует надежного понимания всего контекста и способности выполнять многоэтапный анализ. «Это ограничение представляет собой значительный барьер для практических применений, требующих взаимодействия с внешними знаниями, такими как углубленные исследования, где LRM должны собирать и обрабатывать информацию из среды, интенсивной знания»,-пишут разработчики Qwenlong-L1 в своей статье.

Исследователи формализуют эти проблемы в концепцию «длинных контекстуальных рассуждений RL». В отличие от рассуждений с коротким контекстом, которые часто зависит от знаний, уже сохранившихся в модели, RL с длинным контекстом требует моделей для восстановления и базовой информации о длинных входах. Только тогда они могут генерировать цепи рассуждения на основе этой включенной информации.

Обучающие модели для этого через RL сложны и часто приводят к безработным процессам обучения и нестабильной оптимизации. Модели борются за то, чтобы сходиться на хороших решениях или потерять способность изучать различные способы рассуждений.

Qwenlong-L1: многоэтапный доступ

Qwenlong-L1-это укрепляющая структура обучения, предназначенная для того, чтобы помочь LRMS переходить от опыта с короткими текстами к надежному обобщению через длинные контексты. Структура улучшает существующие короткие контекстуальные LMS с тщательно структурированным многостраничным процессом:

Потепление настройки с хорошей настройкой (SFT): Модель сначала подвергается фазе SFT, где она обучается для примеров рассуждения о длинном контексте. Этот этап устанавливает прочную основу, позволяющую модели получить информацию точно из длинных входов. Это помогает развить фундаментальные навыки для понимания контекста, генерировать логические цепочки рассуждений и извлекать ответы.

Учебная программа поэтапно RL: На этом этапе модель обучается несколькими фазами, при этом целевая длина внутренних документов постепенно увеличивается. Этот систематический, шаг за шагом помогает модели неуклонно адаптировать свои стратегии рассуждений от более коротких до постепенно более длинных контекстов. Это избегает нестабильности, часто наблюдаемой, когда модели внезапно обучаются очень длинным текстам.

Жесткая ретроспективная выборка: Окончательный этап обучения включает в себя сложные примеры предыдущих этапов обучения, гарантируя, что модель продолжает учиться на самых сложных проблемах. Это приоритет трудным случаям и поощряет модель изучать более разнообразные и сложные рассуждения.

Qwenlong-L1 Источник процесса: arxiv

Помимо этого структурированного обучения, Qwenlong-L1 также использует отдельную систему вознаграждения. В то время как обучение для рассуждений с коротким контекстом часто зависит от строгих вознаграждений на основе правил (например, правильный ответ в математической задаче), Qwenlong-L1 использует механизм гибридного вознаграждения. Это сочетает в себе регулярное управление, которое обеспечивает точность, контролируя строгое соблюдение критериев для правильности, с «LLM-как-судьями». Эта судебная модель сравнивает семантичность сгенерированного ответа с истиной Земли, обеспечивая большую гибкость и лучшее использование различными способами, которыми можно выразить правильные ответы, когда речь идет о длинных нюансированных документах.

Проведение Qwenlong-L1 на проверку

Команда Alibaba оценила Qwenlong-L1 с использованием ответа на документальный вопрос (DOCQA) в качестве основной задачи. Этот сценарий очень важен для корпоративных потребностей, когда ИИ должен понимать плотные документы, чтобы ответить на сложные вопросы.

Экспериментальные результаты через семь давно контекстуальных ссылок DOCQA показали способности Qwenlong-L1. Примечательно, что модель Qwenlong-L1-32B (основанная на DeepSeek-R1-Distill-Qwen-32B) достигла производительности, сравнимой с мышлением сонета Antropic Claude-3.7, и превысила такие модели, как O3-Mini и Qwen35b-A22B. Меньшая модель Qwenlong-L1-14B также превысила флэш-мышление Gemini 2.0 о Google и QWEN3-32B.

Источник: Arxiv
Источник: Arxiv

Важным выводом, связанным с реальными приложениями, является то, как обучение RL приводит к модели, разработанной специальным поведением рассуждений. В документе отмечается, что модели, обученные Qwenlong-L1, становятся лучше в «посадке» (связывающие ответы на конкретные части документа), «субглобальная конфигурация» (уничтожение сложных вопросов), «отсталый взгляд» (распознавая и исправляя их собственные ошибки в середине возникновения) и «проверка» (двойной контроль их ответов).

Например, в то время как базовая модель может быть перемещена неуправляемыми деталями в финансовом документе или вставлена ​​в цикл чрезмерной анализа не связанной информации, обученная модель Qwenlong-L1 обладает способностью участвовать в эффективном саморефлексии. Он может успешно отфильтровать эти рекреационные детали, оглянуться от неправильных путей и получить правильный ответ.

Такие методы, как Qwenlong-L1, могут значительно расширить полезность ИИ в компании. Возможные заявки включают в себя правовые технологии (анализ тысяч страниц юридических документов), финансы (в ходе исследований годовых отчетов и финансовых регистраций для оценки рисков или инвестиционных возможностей) и обслуживание клиентов (анализ длинных историй об взаимодействии с клиентами для обеспечения более образованной поддержки). Исследователи выпустили код для рецепта Qwenlong-L1 и веса для обученных моделей.


Source link
Scroll to Top