Подъем по делам искусственного интеллекта с открытым фундаментом

Nvidia запустила Dynamo, программу вывода с открытым исходным кодом, предназначенную для ускорения и масштабирования моделей рассуждений на фабриках искусственного интеллекта.

Эффективное управление и координацию запросов на инференцию с помощью партизационных процессоров является критическим стремлением гарантировать, что фабрики искусственного интеллекта могут работать с оптимальной производительностью затрат и максимизировать получение дохода от токенов.

Поскольку AI -Resource становится все более общим, каждая модель ИИ ожидает десятков тысяч токенов с каждой подсказкой, по существу, представляющей их процесс «мышления». Поэтому улучшение эффективности вывода одновременно снижение его стоимости имеет решающее значение для ускорения роста и ускорения возможностей доходов для поставщиков услуг.

Новое поколение программного обеспечения для ИИ -INERENCE

Nvidia Dynamo, который сменит сервер вывода NVIDIA Triton, представляет новое поколение программного обеспечения для вывода ИИ, специально созданного для максимизации генерации токенов -доходов для фабрик ИИ, разворачивающего модели ИИ.

Динамо организует и ускоряет связь с выводом через потенциально тысячи графических процессоров. Он нанимает малагический сервис, метод, который разделяет обработку и общие фазы крупных языковых моделей (LLMS) на отдельных графических процессорах. Этот подход позволяет оптимизировать каждую фазу независимо, размещая свои конкретные потребности в компьютере и обеспечивая максимальное использование средств GPU.

«Промышленности по всему миру тренируют модели ИИ, чтобы думать и учиться по -разному, что со временем делает их более сложными», – заявил Дженсен Хуанг, основатель и генеральный директор Nvidia. «Чтобы обеспечить будущее обычных рассуждений ИИ, Nvidia Dynamo помогает обслуживать эти модели, что приводит к экономии затрат и эффективности на заводах ИИ».

Используя то же количество графических процессоров, Dynamo продемонстрировал способность дублировать производительность и доход фабрик ИИ, обслуживающих модели LAMA на текущей платформе Hopper Nvidia. Кроме того, когда вы управляете моделью DeepSeek-R1 на большой массе стойки GB200 NVL72, оптимизации умного вывода NVIDIA Dynamo показали, что ускоряют количество токенов, генерируемых более чем 30 раз с помощью графического процессора.

Для достижения этих улучшений в производительности вывода Nvidia Dynamo включает в себя несколько ключевых функций, предназначенных для повышения производительности и снижения эксплуатационных затрат.

Dynamo может динамически добавлять, удалять и перебирать графические процессоры в режиме реального времени, чтобы адаптироваться к колеблющимся объемам и типам запроса. Программное обеспечение также может рассчитать конкретные графические процессоры в больших рампах, которые лучше всего подходят для минимизации соответствующих вычислений и эффективно прямых консультаций. Dynamo также может загружать данные о выводе в большую стоимость памяти и запасы во время восстановления, когда это необходимо, при необходимости, минимизируя общие затраты на вывод.

Nvidia Dynamo выпускается в виде полностью проекта с открытым исходным кодом, предлагая широкую совместимость с популярными кадрами, такими как Pytorch, Sglang, Nvidia tensorrt-LM и VLLM. Этот открытый доступ поддерживает предприятия, стартапы и исследователи в разработке и оптимизации новых методов для обслуживания моделей искусственного интеллекта с помощью не выпущенной инфраструктуры вывода.

NVIDIA ожидает, что Dynamo ускорит внедрение AI через широкий спектр организаций, в том числе ведущих облачных поставщиков и инноваторов AI, таких как AWS, Cohere, Cohere, Coreweave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, Netapp, OCI, Parplexy, AI и AI.

Nvidia Dynamo: вывод перегрузки и агент AI

Ключевое инновация Nvidia Dynamo заключается в его способности составить карту знаний о том, что системы вывода хранят память о обслуживании предыдущих запросов, называемых kv -cash, через потенциально тысячи графических процессоров.

Затем программное обеспечение интеллектуально направляет новые запросы на выводы на графические процессоры, которые владеют лучшим совпадением знаний, эффективно избегая дорогостоящих вознаграждений и освобождая другие графические процессоры для обработки новых входящих запросов. Этот интеллектуальный механизм маршрутизации значительно повышает эффективность и снижает задержку.

«Чтобы обрабатывать сотни миллионов запросов ежемесячно, мы полагаемся на программы NVIDIA и программы выводов для обеспечения эффективности, надежности и масштабирования требований нашей компании и пользователей», – сказал Денис Яратс, технический директор AI.

«Мы с нетерпением ждем возможности использования динамо с его расширенными возможностями распределенного обслуживания, для того, чтобы использовать еще большую эффективность вывода и соответствовать требованиям компьютеров новых моделей рассуждений с искусственным интеллектом».

Платформа AI Cohere уже планирует использовать Nvidia Dynamo, чтобы улучшить возможности AGI в рамках своей командной серии моделей.

«Scale Advanced Models AI требуют сложного планирования с несколькими GPU, координацией сшивания и библиотек с низким содержанием латентов, которые идеально передают контексты рассуждений посредством памяти и хранения»,-объяснил Саураб Баджи, SVP Engineering в Cohere.

«Мы ожидаем, что Nvidia Dynamo поможет нам предоставить основной опыт пользователя нашим корпоративным клиентам».

Поддержка обслуживания Malagregate

Платформа NVIDIA Dynamo -INFEERE также обладает надежной поддержкой нерегулируемого обслуживания. Этот расширенный метод назначает различные вычислительные этапы LLMS, включая основные шаги для понимания пользовательского обзора, а затем генерировать наиболее подходящий ответ – для разных графических процессоров в инфраструктуре.

Несовместимый сервис особенно подходит для моделей рассуждений, таких как новая модель Nvidia Llama Nemotron, которая использует расширенные методы вывода для улучшения контекстного понимания и соответствующего поколения. Позволяя каждому этапу быть настроенным и находчивым независимо, не выпущенная служба улучшает общее назначение и обеспечивает более быстрое время отклика пользователям.

Вместе ИИ, выдающийся игрок в пространстве AI -Accel -Cloud, также стремится интегрировать свой проприерный механизм вывода с Nvidia Dynamo. Эта интеграция направлена ​​на то, чтобы включить вшитое восхождение на нагрузку с выводом через несколько узлов графических процессоров. Кроме того, это позволит ИИ динамически динамически обрабатывать бутылки трафика, которые могут появляться на различных этапах модельного трубопровода.

«Масштабы модели рассуждения, которые затраты эффективно требуют новых передовых методов вывода, включая малагическую порцию и вступление в контекст», – сказал CE Zhang, технический директор AI.

«Открытость и модульность Nvidia Dynamo позволили бы нам идеально вставить свои компоненты в наш двигатель, чтобы обслуживать больше запросов при оптимизации при оптимизации использования ресурсов, максимизируя наши ускоряющие вычислительные инвестиции.

Четыре ключевых инновация Nvidia Dynamo

NVIDIA подчеркнула четыре ключевых инновация в рамках динамо, что способствует снижению затрат на услуги вывода и улучшению опыта пользователя:

  • GPU -Planner: Сложный механизм планирования, который динамически добавляет и удаляет графические процессоры на основе колеблющихся потребностей пользователя. Это обеспечивает оптимальное назначение ресурсов, отключая как чрезмерное пополнение, так и подставка возможностей графического процессора.
  • Умный маршрутизатор: Интеллектуальный, сознательный маршрутизатор LLM, который направляет запросы на вывод через крупные флоты GPU. Его основная функция заключается в минимизации дорогостоящих графических процессоров -Re -re -reworked или перекрывающихся запросов, что выпускает ценные графические процессоры для более эффективного борьбы с новыми входящими запросами.
  • Библиотека связи с низким содержанием латентов: Выводы оптимизированная библиотека, предназначенная для поддержки большинства современных связей с графическим процессором-GPU. Он абстрагирует сложности обмена данными с помощью гетерогенных устройств, значительно ускоряя скорости передачи данных.
  • Мемориал Министр: Интеллектуальный двигатель, который управляет загрузкой и перезагрузкой данных о выводе в и из менее дорогостоящих воспоминаний и стандартных устройств. Этот процесс предназначен для сшивания, обеспечивая негативное влияние на пользовательский опыт.

Nvidia Dynamo будет доступен в NIM Microservices и будет поддерживаться в будущем выпуске программного обеспечения компании компании по искусству.

Смотрите также: LG Exaone Deep – это математика, наука и кодирование

Вы хотите узнать больше об искусственном интеллекте и больших данных промышленными лидерами? Посмотреть AI & Big Data Expo, проходящую в Амстердаме, Калифорнии и Лондоне. Комплексное мероприятие связано с другими основными событиями, включая Smart Automatic Conference, Blockx, неделю цифровой трансформации и кибербезопасность и Cloud Expo.

Исследуйте другие предстоящие корпоративные технологические мероприятия и веб -страницы, управляемые Techforge здесь.

Source link

Scroll to Top