DeepSeek AI представляет АНБ: выравниваемый оборудование и изначально обучаемый механизм редкого внимания для ультрабываемого обучения и вывода с длинным контекстом

В последние годы языковые модели были подталкиваны для обработки все более длительного контекста. Эта потребность выявила некоторые неотъемлемые проблемы в стандартных механизмах внимания. Квадратичная сложность полного внимания быстро становится узким местом при обработке длинных последовательностей. Использование памяти и вычислительные требования быстро увеличиваются, что делает его сложной задачей для практических приложений, таких как многократные диалоги или сложные задачи рассуждения. Более того, в то время как скудные методы внимания обещают теоретические улучшения, они часто пытаются перевести эти преимущества в реальные ускорения.

Многие из этих проблем возникают из -за разрыва между теоретической эффективностью и практической реализацией. Уменьшение вычислительных накладных расходов без потери существенной информации не является простой задачей. Это заставило исследователей переосмыслить механизмы внимания, чтобы они могли лучше сбалансировать производительность с эффективностью. Решение этих проблем является важным шагом к созданию моделей, которые являются одновременно масштабируемыми и эффективными.

Исследователи DeepSeek AI вводят АНБ, выравниваемый оборудование и изначально обучаемый механизм редкого внимания для ультрастрастного обучения и вывода с длинным контекстом. АНБ интегрирует как алгоритмические инновации, так и оптимизацию, выравниваемую оборудованием для снижения вычислительной стоимости обработки длинных последовательностей. АНБ использует динамический иерархический подход. Он начинается с сжатия групп токенов в суммированные представления. Затем он избирательно сохраняет только самые релевантные токены, вычисляя оценки важности. Кроме того, скользящая оконная ветка гарантирует, что локальный контекст сохраняется. Эта трехсторонняя стратегия-сжатие, отбор и скользящее окно-создает конденсированное представление, которое по-прежнему отражает как глобальные, так и локальные зависимости.

Дизайн АНБ также помнит об аппаратных ограничениях. Внедряя специализированные ядра, оптимизированные для современных графических процессоров, АНБ достигает снижения задержки как при выводе, так и в обучении. Эта тщательная смесь алгоритмической стратегии и выравнивания оборудования делает АНБ перспективным кандидатом для улучшения моделирования с длинным контекстом.

Технические детали и преимущества

Архитектура АНБ опирается на две основные столбы: аппаратный дизайн и алгоритм, благоприятный для обучения. Механизм сжатия использует многослойный персептрон для агрегирования последовательных токенов в представления уровня блока. Это отражает закономерности высокого уровня, уменьшая необходимость в обработке полного разрешения.

После сжатия модуль выбора токена работает в блоке. Он выбирает непрерывные блоки токена, которые показывают аналогичные оценки внимания, что помогает минимизировать случайный доступ к памяти. Компонент скользящего окна отвечает за обработку локального контекста. Разделяя локальную и глобальную информацию, АНБ удается сохранить мелкие детали, необходимые для многих задач. Что касается оборудования, АНБ оптимизирует использование ресурсов графического процессора. Запросы загружаются в SRAM в группах, а избыточные переводы ключей значения сводят к минимуму путем эффективного обмена памятью. Эти оптимизации приводят к заметному ускорению как в прямых, так и в обратных вычислениях. Экспериментальные результаты указывают на улучшение до 9 × в прямом распространении и 6 × в обратном распространении для длинных последовательностей.

Основные компоненты АНБ:

  • Динамическая иерархическая редкая стратегия
  • Крупное сжатие токенов
  • Мелкозернистый выбор токена

Результаты и понимание

Исследование представляет тщательную оценку АНБ по различным задачам. На тестах, таких как MMLU, GSM8K и Drop, АНБ достигает производительности, сравнимой или даже лучше, чем традиционные модели полного внимания. Дизайн также оказывается эффективным в сценариях с длинным контекстом, где поддержание как глобальной осведомленности, так и местной точности имеет решающее значение.

Одним из интересных наблюдений является высокая точность извлечения АНБ в задачах иглы-в-запас с последовательностями до 64 тыс. Торгов. Это во многом связано с его иерархическим дизайном, который сочетает в себе грубое глобальное сканирование с подробным локальным отбором. Результаты также показывают, что скорость декодирования АНБ хорошо масштабируется с увеличением длины последовательности, благодаря своему снятую площадью доступа к памяти. Эти понимания предполагают, что сбалансированный подход АНБ – сопоставление сжатия, выбора и раздвижного окна – поперечно практическое способ эффективного обработки длинных последовательностей без точки принести жертву.

Заключение

АНБ отмечает вдумчивый шаг вперед в разработке редких механизмов внимания. Интегрируя обучение с оптимизацией выравниваемой оборудованием, АНБ решает двойные проблемы вычислительной эффективности и эффективное моделирование с длинным контекстом. Его трехуровневый подход, который включает в себя сжатие токенов, селективное внимание и обработку скользящих окон, уменьшает вычислительные накладные расходы при сохранении важного контекста.


Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

Source link

Scroll to Top