Когда дело доходит до приложений, управляемых искусственным интеллектом в реальном времени, таких как автомобили с самостоятельным вождением или мониторинг здравоохранения, даже дополнительная секунда для обработки ввода может иметь серьезные последствия. Приложения для ИИ в режиме реального времени требуют надежных графических процессоров и мощности обработки, которая была очень дорогим и достоверным для многих приложений-до сих пор.
Приняв оптимизирующий процесс вывода, предприятия могут не только максимизировать эффективность ИИ; Они также могут снизить потребление энергии и эксплуатационные расходы (до 90%); повысить конфиденциальность и безопасность; и даже улучшить удовлетворенность клиентов.
Общие проблемы вывода
Некоторые из наиболее распространенных проблем, с которыми сталкиваются компании, когда речь идет о управлении эффективностью ИИ, включают недостаточно используемые кластеры графических процессоров, дефолт к моделям общего назначения и отсутствие понимания связанных затрат.
Команды часто предоставляют кластеры графических процессоров для пиковой нагрузки, но от 70 до 80 процентов времени они недостаточно используются из -за неровных рабочих процессов.
Кроме того, команды по умолчанию по умолчанию к большим моделям общего назначения (GPT-4, Claude) даже для задач, которые могут работать на более мелких, более дешевых моделях с открытым исходным кодом. Причины? Отсутствие знаний и крутая кривая обучения с созданием пользовательских моделей.
Наконец, инженеры, как правило, не имеют понимания стоимости в реальном времени для каждого запроса, что приводит к огромным счетам. Инструменты, такие как racklayer, Helicone может помочь дать это понимание.
Благодаря отсутствию элементов управления по выбору модели, партии и использованию, затраты на вывод могут масштабироваться в геометрической прогрессии (до 10 раз), ресурсов отходов, ограничения точности и снижения пользовательского опыта.
Потребление энергии и эксплуатационные расходы
Запуск больших LLM, таких как GPT-4, Llama 3 70b или Mixtral-8x7b требует значительно больше власти за токен. В среднем от 40 до 50 процентов от энергии, используемой центром обработки данных, поддерживает вычислительное оборудование, с дополнительными от 30 до 40 процентов, посвященных охлаждению оборудования.
Таким образом, для компании, бегущей вокруг, для вывода в масштабе, более выгодно рассмотреть поставщика в области акции, в отличие от поставщика облачных потребление больше энергииПолем
Конфиденциальность и безопасность
Согласно Ciscо 2025 Исследование конфиденциальности данных.В «64% респондентов беспокоятся о том, что непреднамеренно обмениваться конфиденциальной информацией публично или с конкурентами, но почти наполовину признаются, что вводят личные или непубличные данные в инструменты Genai ». Это увеличивает риск несоблюдения, если данные неправильно регистрируются или кэшируются.
Еще одна возможность для риска – это запуск моделей в разных организациях клиентов в общей инфраструктуре; Это может привести к нарушениям данных и проблемам с производительностью, и существует дополнительный риск того, что действия одного пользователя влияют на других пользователей. Следовательно, предприятия обычно предпочитают услуги, развернутые в их облаке.
Удовлетворенность клиента
Когда ответы занимают более нескольких секунд, чтобы отображаться, пользователи обычно бросают, поддерживая усилия инженеров, чтобы переоптимизировать для нулевой задержки. Кроме того, приложения присутствуют «Такие препятствия, как галлюцинации и неточность, которые могут ограничить широкое воздействие и усыновление », согласно Гартнер пресс -релизПолем
Бизнес -преимущества управления этими проблемами
Оптимизация партии, выбор моделей правого размера (например, переход от моделей LLAMA 70B или с закрытым исходным кодом, таких как GPT на GEMMA 2B, где это возможно), и улучшение использования графических процессоров может сократить счета с выводом на 60-80 процентов. Использование таких инструментов, как VLLM, может помочь, а также переключение на модель без сервера с оплатой как-то, для колючего рабочего процесса.
Возьмите Cleanlab, например. Чистый запустил Достоверная языковая модель (TLM) к добавлять Достоверность оценки каждого ответа LLM. Он предназначен для высококачественных результатов и повышенной надежности, что имеет решающее значение для предприятий, чтобы предотвратить неконтролируемые галлюцинации. Прежде чем вывозить, у CleanLabs увеличились затраты на графический процессор, поскольку GPU работали, даже когда они не использовались активно. Их проблемы были типичными для традиционных поставщиков облачных графических процессоров: высокая задержка, неэффективное управление затратами и сложная среда для управления. Благодаря северному выводу они сокращают затраты на 90 процентов при сохранении уровней производительности. Что еще более важно, они пошли в жизнь в течение двух недель без дополнительных инженерных накладных расходов.
Оптимизация модельных архитектур
Фонд -модели, такие как GPT и Claude, часто обучаются для общности, а не эффективности или конкретных задач. Не настраивая модели с открытым исходным кодом для конкретных случаев использования, предприятия тратят память и вычислите время для задач, которые не нуждаются в этом масштабе.
Новые чипы графических процессоров, такие как H100, быстрые и эффективные. Они особенно важны при выполнении крупномасштабных операций, таких как генерация видео или задачи, связанные с AI. Больше ядер CUDA увеличивает скорость обработки, опережая меньшие графические процессоры; Нвидия Тенсорные ядра предназначены для ускорения этих задач в масштабе.
Память графического процессора также важна для оптимизации модельных архитектур, поскольку крупные модели ИИ требуют значительного пространства. Эта дополнительная память позволяет графическим процессорам запускать более крупные модели без ущерба для скорости. И наоборот, производительность меньших графических процессоров, у которых страдает меньше VRAM, поскольку они перемещают данные в более медленную систему.
Несколько преимуществ оптимизации модельной архитектуры включают время и экономию денег. Во-первых, переход от плотного трансформатора на оптимизированные или вспыльчивые варианты может сэкономить от 200 до 400 миллисекунд от времени отклика за запрос, который, например, имеет решающее значение для чат-ботов и игр. Кроме того, квантованные модели (например, 4-битный или 8-битный) нуждаются в меньшем количестве VRAM и работают быстрее на более дешевых графических процессорах.
Долгосрочная, оптимизация модели архитектуры экономит деньги на выводе, поскольку оптимизированные модели могут работать на более мелких чипах.
Оптимизация архитектуры модели включает в себя следующие шаги:
- Квантование – Снижение точности (FP32 → Int4/Int8), сохранение памяти и ускорение вычислительного времени
- Обрезка – удаление менее полезных весов или слоев (структурированные или неструктурированные)
- Дистилляция – Обучение меньшей «студенческой» модели, чтобы имитировать результаты более крупной
Сжатие размера модели
Меньшие модели Среднее значение более быстрого вывода и менее дорогой инфраструктуры. Большие модели (13B+, 70B+) требуют дорогих графических процессоров (A100S, H100S), высокого VRAM и большей мощности. Сжатие их позволяет им работать на более дешевом оборудовании, например, A10S или T4S, с гораздо более низкой задержкой.
Сжатые модели также имеют решающее значение для выполнения вывода на включение (телефоны, браузеры, IoT), так как меньшие модели позволяют обслуживать более параллельные запросы без масштабирования инфраструктуры. В чат -боте с более чем 1000 одновременными пользователями переход от 13B к 7B сжатой модели позволил одной команде обслуживать более чем в два раза больше пользователей на графический процессор без задержек.
Использование специализированного оборудования
Профилатели общего назначения не созданы для тензорных операций. Специализированное оборудование, такое как NVIDIA A100S, H100S, Google TPU или AWS, может предложить более быстрый вывод (от 10 до 100x) для LLMS с повышением энергоэффективности. Бритье даже 100 миллисекунд за запрос может иметь значение при ежедневной обработке миллионов запросов.
Рассмотрим этот гипотетический пример:
Команда управляет Llama-13B на стандартных графических процессорах A10 для своей внутренней тряпичной системы. Задержка составляет около 1,9 секунды, и они не могут много выходить из -за пределов VRAM. Таким образом, они переключаются на H100 с Tensorrt-LLM, включили FP8 и оптимизированное ядро внимания, увеличивайте размер партии с восьми до 64. Результатом является сокращение задержки до 400 миллисекунд с пятикратным увеличением пропускной способности.
В результате они могут обслуживать запросы пять раз по тому же бюджету и освободить инженеров от навигации по узким местам инфраструктуры.
Оценка вариантов развертывания
Различные процессы требуют разных инфраструктур; Чат -бот с 10 пользователями и поисковая система, обслуживающая миллион запросов в день, имеют разные потребности. Обоснованное на облаке (например, AWS SageMaker) или DIY-серверах графических процессоров без оценки коэффициентов производительности затрат приводит к потраченным впустую расходы и плохому опыту пользователя. Обратите внимание, что если вы рано совершаете закрытый облачный поставщик, миграция решения позже болезненна. Тем не менее, оценка на ранней стадии со структурой оплаты, как вы, дает вам варианты в будущем.
Оценка охватывает следующие шаги:
- Задержка и задержка модели на всех платформах: запустите A/B -тесты на AWS, Azure, локальные кластеры GPU или инструменты без сервера для воспроизведения.
- Измеряйте производительность холодного запуска: это особенно важно для рабочих нагрузок без сервера или на основе событий, потому что модели загружаются быстрее.
- Оценить пределы наблюдаемости и масштабирования: оценить доступные метрики и определить, каковы максимальные запросы в секунду, прежде чем деградировать.
- Проверьте поддержку соответствия. Определите, можете ли вы применять правила GEO-связанных данных или журналы аудита.
- Оценить общую стоимость владения. Это должно включать в себя часы GPU, хранение, пропускную способность и накладные расходы для команд.
Суть
Вывод позволяет предприятиям оптимизировать свою производительность ИИ, более низкое использование энергии и затраты, сохранять конфиденциальность и безопасность и делать клиентов счастливыми.
Пост -улучшение вывода ИИ: передовые методы и лучшие практики появились первыми на Unite.ai.