Большие языковые модели (LLMS) значительно выигрывают от механизмов внимания, что позволяет эффективному поиску контекстной информации. Тем не менее, традиционные методы внимания в первую очередь зависят от единственного токена, где каждый вес внимания вычисляется из одной пары запросов и ключевых векторов. Этот дизайн по своей природе ограничивает способность модели различать контексты, требующие интеграции множественных сигналов токенов, тем самым ограничивая ее эффективность на сложные лингвистические зависимости. Например, выявление предложений одновременно, содержащих как «Алису», так и «кролик», является сложной задачей, потому что обычные механизмы внимания пытаются эффективно интегрировать множество отдельных сигналов внимания без существенного увеличения сложности модели.
Meta AI учитывает это ограничение, внедряя многократное внимание (MTA), передового механизма внимания, который одновременно обучает внимание внимания на нескольких запросах и ключевых векторах. MTA объединяет операции свертки по запросам, ключам и головкам внимания, тем самым повышая точность и эффективность поиска контекстной информации. В частности, структура MTA состоит из двух сверточных компонентов: свертка ключей, которая объединяет несколько сигналов токенов в отдельных головах внимания, и свертывающую головную свертку, которая облегчает обмен информацией между разными головами внимания. Кроме того, внедрение использует нормализацию группы с зависимым от глубины масштабирования для стабилизации потока градиента, дальнейшего улучшения стабильности обучения моделям и эффективности.
На техническом уровне MTA изменяет обычные расчеты внимания, включив двухмерную операцию свертки на логиты внимания перед нормализацией Softmax. Эта свертка позволяет смежным запросам и ключам влиять на оценки внимания, что позволяет механизму внимания идентифицировать контекстные отношения, связанные с множественными токенами более точно. Следовательно, модель эффективно объединяет локальные взаимодействия токенов без существенного увеличения количества параметров или размерности векторов внимания. Более того, главная свертка способствует эффективной передаче знаний между главами внимания, избирательно усиливая соответствующие контекстные сигналы, смягчая менее уместную информацию. В совокупности эти усовершенствования дают более надежный механизм внимания, способный захватить сложные многотоковые взаимодействия.

Эмпирические оценки подтверждают эффективность MTA по нескольким критериям. В структурированной мотивирующей задаче, четко разработанной для иллюстрации недостатков механизмов внимания с одним токком, MTA продемонстрировала почти идеальную производительность, достигнув уровня ошибок только 0,1%, в отличие от стандартных моделей трансформаторов, которые демонстрировали частоту ошибок выше 50%. Дальнейшие крупномасштабные эксперименты, включающие модель 880 М параметра, обученная 105 миллиардам токенов, показали, что MTA постоянно превосходит базовые архитектуры. MTA достигла превосходной проверки озабоченности по наборам данных, таким как Arxiv, Github и Wikipedia. В частности, в задачах, требующих расширенного понимания контекста, таких как игла-индикатор и тестерки Babilong, MTA значительно превышала производительность стандартных моделей трансформаторов. В задаче иглы в ходе с помощью 4K токеновых контекстов, содержащих несколько игл, MTA достигла точности от 67% до 97,6%, превосходя стандартные модели по существенной маржи.

Таким образом, многократное внимание (MTA) представляет утонченное продвижение в механизмах внимания путем устранения фундаментальных ограничений традиционного внимания одноразового тока. Используя сверточные операции для одновременной интеграции нескольких взаимодействий с ключом запроса, MTA повышает способность языковых моделей обрабатывать сложные контекстуальные зависимости. Эти методологические улучшения облегчают более точную и эффективную производительность, особенно в сценариях, включающих сложные взаимодействия токенов и дальний контекстный понимание. Благодаря целенаправленным модификациям стандартных механизмов внимания, MTA значительно вносит вклад в эволюцию более сложных, точных и вычислительно эффективных языковых моделей.
Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем
🔥 (Зарегистрируйтесь сейчас) Виртуальная конференция Minicon по AI с открытым исходным кодом: бесплатная регистрация + Сертификат посещаемости + 3-часовое короткое мероприятие (12 апреля, 9 до 12 часов PST) + Руки на семинар (спонсируется)

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.
