Bytedance представляет Ultrameme: новая архитектура искусственного интеллекта для высокопроизводительных, эффективных языковых моделей

Большие языковые модели (LLMS) произвели революцию в обработке естественного языка (NLP), но сталкиваются с значительными проблемами в практических приложениях из -за их крупных вычислительных требований. Хотя масштабирование этих моделей повышает производительность, это создает существенные ограничения ресурсов в приложениях в реальном времени. Текущие решения, такие как Moe Mix of Experts (MOE), повышают эффективность обучения за счет селективной активации параметров, но страдают более медленным временем вывода из -за увеличения требований к доступу к памяти. Другое решение, память ключей продукта (PKM) поддерживает согласованный доступ к памяти с меньшим количеством встроений значений, но обеспечивает производительность subPAR по сравнению с MOE. Модели MOE, несмотря на в 12 раз больше параметров, чем плотные модели, работают в 2-6 раз медленнее во время вывода.

Появились различные подходы к решению вычислительных проблем в LLMS. Исследователи сосредоточились на улучшении функций стробирования MOE за счет улучшенных механизмов выбора токенов и стратегий отбора экспертов для борьбы с дисбалансом экспертов. Недавние события включают в себя эксперты по разрезанию на более мелкие сегменты при активировании нескольких экспертов на токен. PKM представляет собой еще один подход, реализующий наименьшую возможную конфигурацию экспертов, с последующими улучшениями, включая параллельную работу с MLP и методами активации модифицированных значений. Наконец, были исследованы методы разложения тензора, чтобы разбить большие тензоры на более мелкие компоненты, при этом квантование продукта позволяет реконструкция векторной реконструкции вектора с использованием меньшего количества субъектов для уменьшения параметров модели.

Команда из модели Feed-Foundation At Bytedance предложила Ultramem, новую архитектуру, которая революционизирует реализацию крупномасштабных слоев памяти в языковых моделях. Он построен на основе PKM при введении слоев памяти ультра-SPARSE, которые значительно повышают вычислительную эффективность и снижают задержку вывода. Ultramem достигает превосходной производительности по сравнению с моделями PKM и MOE в эквивалентных масштабах, что делает его особенно подходящим для ограниченных ресурсов. Ultramem демонстрирует замечательные возможности масштабирования, опережая MOE в скорости вывода до 6 раз при общих размерах партии, сохраняя при этом вычислительную эффективность, сравнимую с плотными моделями.

Ultramem применяет архитектуру трансформатора до Layernorm со значительными модификациями для устранения ограничений традиционных структур PKM. Архитектура распределяет несколько меньших слоев памяти с фиксированными интервалами по всем слоям трансформатора, заменяя один большой слой памяти, используемый в PKM. Это распределение справляется с трудностями в поиске правильных значений, когда увеличивается размер значения и несбалансированные вычисления по нескольким графическим процессорам во время крупномасштабных тренировок. Дизайн также касается присущего врожденного смещения в разложении ключей продукта, где традиционное поиск Top-K ограничивается положениями строк и столбцов. Более того, структура Skip-Layer оптимизирует операции по борьбе с памятью во время обучения и повышает общую вычислительную эффективность.

Оценка производительности ультраммеи в разных размерах модели показывает впечатляющие результаты по отношению к существующей архитектуре. С эквивалентными параметрами и затратами на вычисление, Ultramem превосходит модели PKM и MOE по мере увеличения емкости. Модель Ultramem с параметром в 12 раз соответствует производительности 6,5B плотной модели, сохраняя при этом вычислительную эффективность плотной модели 1,6B. Эксперименты по масштабированию показывают, что Ultramem поддерживает стабильное время вывода даже с экспоненциальным ростом параметров, при условии, что активированные параметры остаются постоянными. Это резко контрастирует с моделями MOE, которые показывают значительную деградацию производительности, подчеркивая превосходную эффективность Ultramem в управлении редкими параметрами.

Эта статья представляет Ultrameme, которая представляет собой значительный прогресс в архитектуре LLM, демонстрируя превосходные характеристики эффективности по сравнению с существующими подходами. Он достигает в шесть раз быстрее скорости обработки, чем модели MOE, сохраняя при этом минимальные требования к доступу к памяти. Ultramem демонстрирует расширенные возможности масштабирования по мере увеличения модели, опережая модели MOE с эквивалентными параметрами и вычислительными ресурсами. Эти впечатляющие результаты утверждают, что ультрамер как многообещающую основу для разработки более эффективных и масштабируемых языковых моделей, революционизируя область НЛП, позволяя создавать более мощные модели, сохраняя при этом практические требования к ресурсам.


Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 75K+ ML SubredditПолем

🚨 Рекомендуемая платформа для ИИ с открытым исходным кодом: «Intellagent-это многоагентная среда с открытым исходным кодом для оценки сложной разговорной системы ИИ(Продвигается)


Саджад Ансари – последний год бакалавриата IIT Kharagpur. Как технический энтузиаст, он углубляется в практические применения ИИ с акцентом на понимание влияния технологий ИИ и их реальных последствий. Он стремится сформулировать сложные концепции ИИ ясно и доступно.

✅ (рекомендуется) присоединиться к нашему каналу Telegram

Source link

Scroll to Top