Эффективные умножения матрицы остаются важным компонентом в современном глубоком обучении и высокопроизводительных вычислениях. Поскольку модели становятся все более сложными, традиционные подходы к умножению общей матрицы (GEMM) часто сталкиваются с проблемами, связанными с ограничениями полосы пропускания памяти, численной точностью и неоптимальным использованием оборудования. Эти проблемы еще более осложняются развивающимся использованием форматов смешанного назначения, таких как FP8, которые требуют тщательной обработки, чтобы избежать вычислительных неточностей. Недавние достижения в области архитектур графических процессоров, в частности, ядер Nvidia Hopper Tensor, создали возможности для повышения производительности, но только если программное обеспечение предназначено для полного использования этих возможностей. В этом контексте существует необходимость в инструментах, которые не только касаются этих узких мест производительности, но и сохраняют простоту и прозрачность в их дизайне.
Выпуск DeepSeek AI DeepGemm отмечает вдумчивый подход к улучшению операций FP8 GEMM. Разработанный специально для эффективного и чистого умножения матрицы FP8 с мелкозернистым масштабированием, DeepGemm поддерживает как стандартные, так и сгруппированные драгоценные камни сочетания (MOE). Библиотека написана в CUDA и выделяется благодаря использованию компиляции ядра во время выполнения через легкий модуль только что (JIT). Этот выбор дизайна означает, что нет необходимости в длительных процессах времени компиляции во время установки, что делает его простым для интеграции в существующие проекты. DeepGemm предназначена для тензорных ядер Nvidia Hopper, гарантируя, что она использует современные аппаратные возможности, одновременно решая неотъемлемые проблемы, такие как неточные накопления FP8.
Технические детали и преимущества
По своей сути, DeepGemm использует мелкозернистое масштабирование в сочетании с арифметикой FP8, чтобы сбалансировать скорость и численную точность. Для противодействия вопросам с накоплением ядра FP8 в библиотеке используется двухуровневая стратегия накопления через ядер CUDA-часто описывается как продвижение. Этот подход сводит к минимуму ошибки во время вычислений без жертвоприношения производительности. Реализация заметно краткой, с одной основной функцией ядра, охватывающей около 300 строк кода. Такая простота не только помогает понимать основные принципы, но и облегчить дальнейшие уточнения со стороны сообщества.
DeepGemm черпает вдохновение из устоявшихся библиотек, таких как Cutlass и Mit, но намеренно избегает сильной зависимости от сложных шаблонов или алгебраических рамок. Вместо этого основное внимание остается на предоставлении чистой и доступной кодовой базы, которая концентрируется на оптимизации операций GEMM как для нормальных, так и для сгруппированных конфигураций. Поддержка сгруппированных драгоценных камней, разработанная для моделей MOE, реализована в двух формах: смежные и маскированные макеты. Каждый из них тщательно структурирован, чтобы приспособить различные токеновые подсчеты на одного эксперта, отражая практические требования современного вывода и задач обучения.
Постижения и соображения производительности
Данные о производительности, представленные в репозитории DeepGemm, предлагают четкую картину повышения эффективности. Тестирование на графических процессорах NVIDIA H800 с NVCC 12.8 указывает на то, что в диапазоне матричных измерений DeepGemm достигает ускорения, которые выгодно сравниваются с тщательно оптимизированной реализацией на основе Cutlass. Например, нормальные операции GEMM демонстрируют факторы ускорения в диапазоне от приблизительно 1,4 раза до 2,7x, в зависимости от конкретной формы матрицы. В контексте сгруппированных драгоценных камней для моделей MOE как смежные, так и маскированные макеты показывают последовательные улучшения, хотя и более скромные, с ускорением примерно в 1,1x до 1,2x.
Эти повышения производительности являются результатом нескольких вдумчивых дизайнерских решений. Стратегия компиляции JIT библиотеки позволяет динамическая оптимизация параметров ядра, таких как размеры блоков, количество стадий трубопровода и группировки WARPP -Groups, заложенные в конкретные формы GEMM и конфигурации аппаратного обеспечения. Кроме того, использование тензорной памяти Хоппера (TMA) помогает оптимизировать движение данных, что является важным фактором в достижении высокой производительности в современных архитектурах GPU. В репозитории также подробно описывается несколько функций утилиты, которые помогают разработчикам в соответствии с размерами тензора и настройке общей памяти, гарантируя, что библиотека может быть плавно интегрировать в более крупные системы.
Заключение
DeepGemm представляет собой измеренный и эффективный подход к проблемам вычислений FP8 GEMM. Сосредоточив внимание как на точности, так и на производительности, библиотека предоставляет элегантное решение для исследователей и практиков, стремящихся оптимизировать умножение матрицы на тензорных ядрах Nvidia Hopper. Его дизайн подчеркивает ясность и доступность-фактической в краткой кодовой базе и ликвидации этапов предварительной компиляции посредством компиляции JIT выполнения. Будь то стандартные драгоценные камни или более специализированные сгруппированные драгоценные камни, требуемые моделями MOE, DeepGemm предлагает практическую, хорошо документированную платформу для повышения вычислительной эффективности.
Для тех, кто стремится улучшить свои глубокие трубопроводы или получить представление о современных методах оптимизации графических процессоров, DeepGemm является ценным ресурсом. Репозиторий, опубликованный по лицензии MIT и поддерживаемый сообществом разработчиков, предлагает дальнейшее исследование и уточнение.
Проверить GitHub Repo. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем
🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.
🚨 Рекомендуемая Платформа ИИ с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)