Эффективная обработка длинных контекстов была давней проблемой в обработке естественного языка. Поскольку крупные языковые модели расширяют свою способность читать, понимать и генерировать текст, механизм внимания – центр для того, как они обрабатывают ввод, – может стать узким местом. В типичной архитектуре трансформаторов этот механизм сравнивает каждый токен с любым другим токеном, что приводит к вычислительным затратам, которые масштабируют квадратно с длиной последовательности. Эта проблема становится все более насущной, поскольку мы применяем языковые модели к задачам, которые требуют, чтобы они проконсультировались с огромными объемами текстовой информации: документы с длинной формой, мульти-главары, юридические трусы или большие хранилища кодекса. Когда модель должна перемещаться по десяткам или даже сотням тысяч токенов, стоимость наивно вычисления полного внимания становится непомерно высокой.
Предыдущие усилия по решению этой проблемы часто зависят от навязывания фиксированных структур или приближений, которые могут поставить под угрозу качество в определенных сценариях. Например, механизмы скользящего окна ограничивают токены в местном районе, что может скрывать важные глобальные отношения. Между тем, подходы, которые радикально изменяют фундаментальную архитектуру, такие как замена внимания Softmax на совершенно новые конструкции, могут потребовать обширного переподготовки с нуля, что затрудняет извлечение из существующих предварительно обученных моделей. Исследователи искали метод, который сохраняет ключевые преимущества оригинальной конструкции трансформатора-его адаптивность и способность захватывать широкомасштабные зависимости-без воздействия на огромные вычислительные накладные расходы, связанные с традиционными полным вниманием к чрезвычайно длинным последовательностям.
Исследователи из AI Moonshot AI, Университета Цинхуа и Университета Чжэцзян вводят смесь блочного внимания (MOBA), инновационного подхода, который применяет принципы смеси экспертов (MOE) к механизму внимания. Разделяя ввод на управляемые «блоки» и используя обучаемую систему стробирования, чтобы решить, какие блоки имеют отношение к каждому токену запроса, MOBA рассматривает неэффективность, которая возникает, когда модель должна сравнивать каждый токен с каждым другим токеном. В отличие от подходов, которые жестко обеспечивают локальное или оконное внимание, MOBA позволяет модели узнать, где сосредоточиться. Эта конструкция руководствуется принципом «меньшей структуры», что означает, что архитектура не представляет именно то, что токены должны взаимодействовать. Вместо этого он делегирует эти решения в научную стробирующую сеть.
Ключевой особенностью MOBA является его способность плавно функционировать с существующими моделями на основе трансформаторов. Вместо того, чтобы отбрасывать стандартный интерфейс самопришoиттизации, MOBA работает как форма «плагина» или замены. Он сохраняет такое же количество параметров, поэтому он не размывает архитектуру, и сохраняет причинно -следственную связь, чтобы обеспечить правильность авторегрессии. В практических развертываниях MOBA может переключаться между разреженным и полным вниманием, что позволяет модели извлечь выгоду из ускорения при решении чрезвычайно длинных входов при сохранении отрыва до стандартного полного внимания в слоях или этапах обучения, где это может быть желательно.
Технические детали и преимущества
MOBA сосредоточена на разделении контекста на блоки, каждый из которых охватывает последовательный диапазон токенов. Механизм стробирования вычисляет оценку «аффинность» между токеном запроса и каждым блоком, как правило, сравнивая запрос с объединенным представлением ключей блока. Затем он выбирает лучшие блоки. В результате только те жетоны в наиболее важных блоках способствуют конечному распределению внимания. Блок, который содержит сам запрос, всегда включен, обеспечивающий доступ к локальному контексту. В то же время, причинно-следственная машина применяется так, чтобы токены не посещали должности в будущем, сохраняя правую авторегрессивную собственность.
Из -за этой процедуры матрица внимания MOBA значительно разрешена, чем в оригинальном трансформаторе. Тем не менее, он остается достаточно гибким, чтобы позволить запросам посещать далекую информацию, когда это необходимо. Например, если на вопрос, поставленный в конце текста, можно ответить только ссылка на детали в начале, механизм стробирования может научиться назначать высокий балл соответствующему более раннему блоку. Технически, этот метод на основе блоков уменьшает количество сравнений токенов с субквадратическими масштабами, обеспечивая повышение эффективности, которые становятся особенно очевидными, поскольку длины контекста поднимаются на сотни тысяч или даже миллионы токенов.
Другим привлекательным аспектом MOBA является его совместимость с современными ускорителями и специализированными ядрами. В частности, авторы объединяют MOBA с Flashattention, высокоэффективной библиотекой для быстрого, эффективного памяти точного внимания. Тщательно группируя операции запроса – ключа – клавишу, в соответствии с которыми были выбраны блоки, они могут оптимизировать вычисления. Авторы сообщают, что при миллионе токенов MOBA может привести к примерно шестикратному ускорению по сравнению с обычным полным вниманием, подчеркивая ее практичность в реальных случаях использования.

Результаты и понимание
Согласно техническому отчету, MOBA демонстрирует производительность на одном уровне с полным вниманием к различным задачам, одновременно предлагая значительные вычислительные сбережения при работе с длинными последовательностями. Тесты по данным языкового моделирования показывают, что недоумения MOBA остаются близкими к тестирующим трансформаторам с полным активацией на длине последовательности 8 192 или 32 768 токенов. Критически, поскольку исследователи постепенно расширяют длину контекста до 128 000 и не только, MOBA сохраняет надежное понимание длинного контекста. Авторы представляют оценки «запекания токена», которые концентрируются на способности модели предсказывать токены в конце длинной подсказки – область, которая обычно подчеркивает недостатки методов, опираясь на тяжелые приближения. MOBA эффективно управляет этими отставанием без каких -либо радикальных потерь в прогнозном качестве.
Они также исследуют чувствительность подхода к блокированию размер и стратегий стробирования. В некоторых экспериментах усовершенствование гранулярности (то есть с использованием меньших блоков, но выбор их большего) помогает модели более внимательно приостановить полное внимание. Даже в условиях, где MOBA оставляет большие части контекста, адаптивное стробирование может идентифицировать блоки, которые действительно имеют значение для запроса. Между тем, «гибридный» режим демонстрирует сбалансированный подход: некоторые слои продолжают использовать MOBA для скорости, в то время как меньшее количество слоев возвращается к полному вниманию. Этот гибридный подход может быть особенно полезным при выполнении точной настройки, где определенные позиции при вводе могут быть замаскированы из цели обучения. Сохранение полного внимания в нескольких верхних слоях, модель может сохранить широкий контекст, пользуясь задачами, которые требуют большей глобальной перспективы.
В целом, эти выводы показывают, что MOBA хорошо подходит для задач, которые включают обширный контекст, такие как понимание прочитанного длинных документов, крупномасштабное завершение кода или системы многократных диалогов, где вся история разговоров становится важной. Его практическое повышение эффективности и минимальные компромиссы производительности позиционируют MOBA как привлекательный метод для повышения эффективности крупных языковых моделей в масштабе.
Заключение
В заключение, смесь блочного внимания (MOBA) обеспечивает путь к более эффективной обработке с длинным контекстом в моделях крупных языков, без обширного пересмотра архитектуры трансформатора или падения производительности. Принимая смесь идей экспертов в модуле внимания, MOBA предлагает ученимый, но редкий способ сосредоточиться на соответствующих частях очень длинных входов. Адаптируемость, присущая его дизайну, особенно его бесшовное переключение между редким и полным вниманием, – делает ее особенно привлекательным для постоянных или будущих тренировочных трубопроводов. Исследователи могут точно настроить, насколько агрессивно обрезать шаблон внимания или выборочно использовать полное внимание для задач, которые требуют исчерпывающего охвата.
Хотя большая часть внимания к MOBA фокусируется на текстовых контекстах, основной механизм может также иметь перспективу для других методов данных. Везде, где длина последовательности достаточно велика, чтобы поднять вычислительные проблемы или проблемы с памятью, понятие назначения запросов блокировать экспертов может облегчить узкие места при сохранении способности справляться с основными глобальными зависимостями. Поскольку длины последовательности в языковых приложениях продолжают расти, такие подходы, как MOBA, могут играть важную роль в повышении масштабируемости и экономической эффективности моделирования нейронного языка.
Проверить бумага и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditПолем
🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.
