Исследователи NVIDIA AI представляют FFN Fusion: новая методика оптимизации, которая демонстрирует, как последовательные вычисления в моделях крупных языков могут быть эффективно параллелизированы

Большие языковые модели (LLMS) стали жизненно важными между областями, что позволяет высокоэффективным приложениям, таким как генерация естественного языка, научные исследования и разговорные агенты. Под этими достижениями находится архитектура трансформатора, где чередующиеся слои механизмов внимания и сетей подачи (FFNS) последовательно обрабатывают токенизированный вход. Однако с увеличением размера и сложности вычислительное бремя, необходимое для вывода, существенно растет, что создает узкое место. Эффективный вывод в настоящее время является важной проблемой: многие исследовательские группы сосредоточены на стратегиях, которые могут снизить задержку, повысить пропускную способность и сократить вычислительные затраты при сохранении или повышении производительности модели.

В центре этой проблемы эффективности лежит последовательная структура трансформаторов по своей природе. Выход каждого слоя подается в следующий, требующий строгого порядка и синхронизации, что особенно проблематично в масштабе. По мере расширения размеров модели стоимость последовательных вычислений и связи между графическими процессорами растет, что приводит к снижению эффективности и увеличению стоимости развертывания. Эта проблема усиливается в сценариях, требующих быстрого, многократного поколения, таких как помощники искусственного интеллекта в реальном времени. Сокращение этой последовательной нагрузки при сохранении возможностей модели представляет собой ключевое техническое препятствие. Разблокировка новых стратегий параллеля, которые сохраняют точность, но значительно снижают глубину вычислений, имеет важное значение для расширения доступности и масштабируемости LLMS.

Появилось несколько методов для повышения эффективности. Квантование снижает точность численных представлений, чтобы минимизировать потребности в памяти и вычислениях, хотя часто рискует потери точности, особенно при низких битовых ширинах. Обрезка устраняет избыточные параметры и упрощает модели, но потенциально наносит ущерб точности без помощи. Модели смеси экспертов (MOE) активируют только подмножество параметров на вход, что делает их высокоэффективными для конкретных рабочих нагрузок. Тем не менее, они могут недооценки в промежуточных размерах партий из -за низкого использования оборудования. Несмотря на то, что они ценны, эти стратегии имеют компромиссы, которые ограничивают их универсальную применимость. Следовательно, поле ищет методы, которые предлагают широкие улучшения эффективности с меньшим количеством компромиссов, особенно для плотных архитектур, которые проще для обучения, развертывания и обслуживания.

Исследователи в Nvidia представили новую технику архитектурной оптимизации, названную FFN Fusionкоторый рассматривает последовательное узкое место в трансформаторах, идентифицируя последовательности FFN, которые можно выполнить параллельно. Этот подход появился из наблюдения, что при удалении внимания снимаются с использованием инструмента головоломки, модели часто сохраняют длинные последовательности последовательных FFN. Эти последовательности показывают минимальную взаимозависимость и, следовательно, могут быть обработаны одновременно. Анализируя структуру LLM, такую ​​как Llama-3.1-405b-инструкт, исследователи создали новую модель под названием Ultra-253b-база путем обрезки и реструктуризации базовой модели с помощью FFN Fusion. Этот метод приводит к значительно более эффективной модели, которая поддерживает конкурентную эффективность.

FFN Fusion сливает несколько последовательных слоев FFN в единый, более широкий FFN. Этот процесс основан на математической эквивалентности: путем объединения весов нескольких FFN можно создать один модуль, который ведет себя как сумма исходных слоев, но может быть рассчитана параллельно. Например, если три FFN складываются последовательно, каждый зависит от вывода предыдущего, их слияние удаляет эти зависимости, гарантируя, что все три работают на одном и том же входе, и их выходы агрегированы. Теоретическая основа для этого метода показывает, что слитый FFN поддерживает такую ​​же репрезентативную способность. Исследователи выполнили анализ зависимостей, используя косинусное расстояние между выходами FFN, чтобы идентифицировать области с низкой взаимозависимостью. Эти области считались оптимальными для слияния, поскольку минимальное изменение направления токена между слоями указывало на выполнимость параллельной обработки.

Применение FFN Fusion к модели Llama-405B привело к Ultra-253B-базе, которая обеспечила заметные успехи в скорости и эффективности ресурсов. В частности, новая модель достигла улучшения в 1,71x задержки вывода и снизилась вычислительная стоимость на 35-й размер пакетного размера 32. Эта эффективность не достигнута за счет возможностей. Ultra-253b-база набрала 85,17% на MMLU, 72,25% на MMLU-PRO, 84,92% на арене жестко, 86,58% на гумане и 9,19 на Mt-Bench. Эти результаты часто соответствовали или превышали оригинальную модель 405B-параметра, хотя ультра-253b-база содержала только 253 миллиарда параметров. Использование памяти также улучшилось с 2-кратным снижением требований к кв-кэше. Процесс обучения включал в себя перегородку 54 миллиарда токенов в окне контекста 8K, за которым следует поэтапная точная настройка в контексте 16K, 32K и 128K. Эти шаги гарантировали, что плавкая модель сохраняла высокую точность, выиграв от уменьшения размера.

Это исследование демонстрирует, как вдумчивый архитектурный редизайн может открыть значительный повышение эффективности. Исследователи показали, что слои FFN в архитектурах трансформатора часто более независимы, чем предполагалось ранее. Их метод количественной оценки межслойной зависимости и преобразования структур модели позволил для более широкого применения в разных моделях различных размеров. Техника была также подтверждена на модели 70B-параметра, доказывая обобщение. Дальнейшие эксперименты показали, что, хотя слои FFN часто можно слиться с минимальным воздействием, параллелизация полного блока, включая внимание, вносит большую деградацию производительности из -за более сильных взаимозависимостей.

Несколько ключевых выводов из исследования FFN Fusion:

  • Метод слияния FFN снижает последовательные вычисления в трансформаторах путем параллелизирования слоев FFN с низкой зависимостью.
  • Слияние достигается путем замены последовательностей FFNs одним более широким FFN с использованием конкатенированных весов.
  • Ultra-253b-база, полученная из Llama-3.1-405b, достигает в 1,71x более быстрый вывод и в 35 раз меньше затрат на ток.
  • Результаты эталона включают в себя: 85,17% (MMLU), 72,25% (MMLU-PRO), 86,58% (Humaneval), 84,92% (Arena Hard) и 9,19 (MT-Bench).
  • Использование памяти сокращается вдвое из-за оптимизации кв-кэша.
  • FFN Fusion более эффективен в более крупных масштабах моделей и хорошо работает с такими методами, как обрезка и квантование.
  • Полная параллелизация блока трансформатора показывает потенциал, но требует дальнейших исследований из -за более сильных взаимозависимостей.
  • Систематический метод с использованием косинусного расстояния помогает определить, какие последовательности FFN безопасны для предотвращения.
  • Техника подтверждена разными размерами модели, включая 49b, 70b и 253b.
  • Этот подход закладывает основу для более параллельных и аппаратных проектов LLM.

Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем


ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

Source link

Scroll to Top