Разрушение авторегрессивной плесени: LLADA доказывает, что диффузионные модели могут конкурировать с традиционными языковыми архитектурами

В области крупных языковых моделей уже давно преобладают авторегрессивные методы, которые прогнозируют текст последовательно слева направо. В то время как они подходят к мощности, наиболее способным ИИ -системам, они сталкиваются с фундаментальными ограничениями в вычислительной эффективности и двунаправленных рассуждениях. Исследовательская группа из Китая теперь оспаривала предположение, что авторегрессивное моделирование является единственным путем к достижению человеческих языковых возможностей, внедряя инновационную архитектуру на основе диффузии под названием LLADA, которая переосмысливает, как языковые модели обрабатывают информацию.

Текущие языковые модели работают посредством прогнозирования следующего слова, требуя все более сложные вычисления по мере роста контекстов. Эта последовательная природа создает узкие места в скорости обработки и ограничивает эффективность на задачи, требующие обратного рассуждения. Например, традиционные авторегрессивные модели страдают от переворот проклятие– Феномен, в котором модели, обученные предсказанию следующей борьбы с токеной с обратными логическими задачами. Рассмотрим завершение поэзии:

  • Переменная задача (авторегрессивная сила): Учитывая подсказку «Розы красные», Модели легко продолжаются с «Фиалки синие».
  • Задача отмены (авторегрессивная слабость): Данный «Фиалки синие», Те же модели часто не могут вспомнить «Розы красные» как предыдущая линия.

Этот направленный уклон связан с их обучением, чтобы предсказать текст строго слева направо. В то время как существуют маскированные языковые модели (например, BERT), они традиционно используют фиксированные коэффициенты маскировки, ограничивая свои генеративные возможности. Исследователи предлагают LLADA (большая языковая диффузия с маскировкой), которая реализует Динамическая стратегия маскировки через шаги диффузии для преодоления этих ограничений (показано на рис. 2). В отличие от авторегрессивных моделей, LLADA обрабатывает токены параллельно через двунаправленную структуру, одновременно обучение контекстуальных отношениям во всех направлениях.

Архитектура Llada использует трансформатор без причинно -следственной маскировки, обученной двумя этапами:

  1. Предварительная тренировка: Модель учится реконструировать случайные маскировки текстовых сегментов на 2,3 триллиона токена. Представьте себе, что ремонтируйте поврежденную рукопись, где слова непредсказуемо исчезают – лаллада практикует пробелы в любом порядке. Например:
  • Начните с предложения в маске: «(Маска) красные, (маска) синие».
  • Предсказывать «Фиалки» Сначала для второго бланка, затем «Розы» для первого.
  • Повторные циклы маскировки/разоблачения устраняют направленное смещение.
  1. Настраиваемая настраиваемая настройка: Модель адаптируется к парам инструкции-ответ, маскируя только часть ответа, позволяя уточнить задачу при сохранении двунаправленного понимания.

Во время генерации LLADA начинается с полных маскированных полей выхода и итеративно уточняет прогнозы посредством достоверности удаления:

  1. На каждом этапе диффузии модель предсказывает все токены в масках одновременно.
  2. Прогнозы с низкой достоверностью (например, неопределенные слова в открывающей линии стихотворения) перебраны для переоценки.
  3. Этот процесс «семантического отжига» повторяется до тех пор, пока не появится когерентный текст.
Ссылка: https://arxiv.org/pdf/2502.09992

Оценка эффективности выявляет удивительные возможности. При масштабировании до 8 миллиардов параметров, LLADA соответствует или превышает авторегрессивные модели эквивалентного размера, такие как Llama2-7B в течение 15 тестов, превосходящих математические рассуждения (GSM8K) и китайские задачи. Важно отметить, что преодолевает проклятие отмены:

  • Достигнуто 42% точности На обратном стихотворении задачи завершения по сравнению с GPT-4 32%сохраняя паритет в форвардном поколении.
  • Продемонстрировали последовательную производительность по задачам QA с обращением (например, «Кто такая мать Тома Круза?» против. «Кто такая сын Мэри Ли Пфайффер?»), где авторегрессивные модели часто терпят неудачу.

Модель также показывает эффективное масштабирование – компутационные затраты растут сравнительно с традиционными архитектурами, несмотря на его новый подход. Примечательно, что в таких задачах, как MMLU и GSM8K, LLADA демонстрирует еще более сильную масштабируемость.

Таким образом, этот прорыв предполагает, что ключевые языковые возможности возникают из фундаментальные генеративные принципыне авторегрессивный дизайн. В то время как текущие реализации слегка отстают в таких задачах, как MMLU (вероятно, из -за отклонения качества данных), LLADA устанавливает диффузионные модели как жизнеспособные альтернативы. Исследование открывает двери для параллельных генераций и двунаправленных рассуждений, хотя проблемы остаются в оптимизации выводов и согласовании с человеческими предпочтениями. Поскольку поле исследует эти альтернативы, мы можем быть свидетелями ранних стадий сдвига парадигмы в том, как машины обрабатывают язык обрабатывания, в котором модели «думают о целостном возрасте», а не ограничены линейным прогнозом.


    Проверить Страница бумаги и проекта. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditПолем

    🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


    Vineet Kumar – стажер консалтинга в Marktechpost. В настоящее время он преследует свой BS из Индийского технологического института (IIT), Канпур. Он энтузиаст машинного обучения. Он увлечен исследованиями и последними достижениями в области глубокого обучения, компьютерного зрения и связанных с ними областей.

Source link

Scroll to Top