АИ-сгенерированные видео из описания текста или изображений обладают огромным потенциалом для создания контента, производства медиа и развлечений. Недавние достижения в области глубокого обучения, особенно в архитектурах на основе трансформаций и диффузионных моделей, способствовали этому прогрессу. Тем не менее, обучение этих моделей остается ресурсным, требующим крупных наборов данных, обширной вычислительной способности и значительных финансовых инвестиций. Эти проблемы ограничивают доступ к передовым технологиям генерации видео, что делает их в основном доступными для хорошо финансируемых исследовательских групп и организаций.
Обучение видео -моделей AI дорого и вычислительно требует. Высокопроизводительные модели требуют миллионов обучающих образцов и мощных кластеров графических процессоров, что затрудняет их развитие без значительного финансирования. Крупномасштабные модели, такие как Sora Openai, качество генерации видео до новых высот, но требуют огромных вычислительных ресурсов. Высокая стоимость обучения ограничивает доступ к передовым синтезу видео, управляемого искусственным интеллектом, ограничивая инновации несколькими основными организациями. Обращение к этим финансовым и техническим барьерам необходимо для того, чтобы сделать генерацию видео с искусственным интеллектом более доступным и поощрять более широкое принятие.
Различные подходы были разработаны для удовлетворения вычислительных требований генерации видео ИИ. Собственные модели, такие как взлетно-посадочная полоса Gen-3 Alpha, имеют высоко оптимизированные архитектуры, но представляют собой закрытый источник, ограничивая более широкие вклад в исследовательские исследования. Модели с открытым исходным кодом, такие как Hunyuanvideo и Step-Video-T2V, предлагают прозрачность, но требуют значительной вычислительной мощности. Многие полагаются на обширные наборы данных, сжатие на основе аутокодера и методы иерархической диффузии для повышения качества видео. Тем не менее, каждый подход идет с компромиссами между эффективностью и производительностью. В то время как некоторые модели сосредоточены на выходе высокого разрешения и точности движения, другие определяют приоритеты более низких вычислительных затрат, что приводит к различным уровням производительности в разных показателях оценки. Исследователи продолжают искать оптимальный баланс, который сохраняет качество видео, снижая финансовую и вычислительную нагрузку.
Исследователи HPC-AI Tech представляют Open-Sora 2.0, модель генерации видео с ИИ коммерческого уровня, которая достигает современной эффективности, значительно снижая затраты на обучение. Эта модель была разработана с инвестициями всего в 200 000 долларов, что делает ее в пять-десять раз более экономически эффективными, чем конкурирующие модели, такие как MovieGen и Step-Video-T2V. Open-Sora 2.0 предназначен для демократизации генерации видео с искусственным интеллектом путем создания высокопроизводительных технологий доступной для более широкой аудитории. В отличие от предыдущих высококачественных моделей, этот подход интегрирует множество инноваций, основанных на эффективности, включая улучшение курирования данных, передового автоподора, новую гибридную структуру трансформатора и высоко оптимизированные методологии обучения.
Исследовательская группа внедрила иерархическую систему фильтрации данных, которая превращает видео-данные в подмножествах более высокого качества, обеспечивая оптимальную эффективность обучения. Значительным прорывом стало введение видеоаукодера видео DC-EAE, которое улучшает сжатие видео при одновременном сокращении количества токенов, необходимых для представления. Архитектура модели включает в себя механизмы полного внимания, многопоточную обработку и подход гибридного диффузионного трансформатора для повышения качества видео и точности движения. Эффективность обучения была максимизирована с помощью трехэтапного трубопровода: обучение текста-видео на данные с низким разрешением, адаптацию изображения к Video для улучшения динамики движения и тонкую настройку высокого разрешения. Этот структурированный подход позволяет модели понимать сложные шаблоны движения и пространственную согласованность, сохраняя при этом вычислительную эффективность.
Модель была протестирована по нескольким измерениям: визуальное качество, быстрое соблюдение и реализм движения. Оценки предпочтений человека показали, что Open-Sora 2.0 превосходит частных конкурентов и конкурентов с открытым исходным кодом как минимум в двух категориях. В оценках VBENCH разрыв в производительности между SORA Open-Sora и SORA OpenAI был снижен с 4,52% до всего лишь 0,69%, что демонстрирует существенные улучшения. Open-Sora 2.0 также достиг более высокой оценки VBENCH, чем Hunyuanvideo и Cogvideo, установив себя как сильный соперник среди современных моделей с открытым исходным кодом. Кроме того, модель интегрирует расширенные оптимизации обучения, такую как параллелизированная обработка, контрольная точка активации и автоматическое восстановление сбоев, обеспечение непрерывной работы и максимизацию эффективности графического процессора.
Ключевые выводы из исследования на Open-Sora 2.0 включают:
- Open-Sora 2.0 обучался всего за 200 000 долларов, что делает его в пять-десять раз более экономически эффективными, чем сопоставимые модели.
- Система иерархической фильтрации данных уточняет наборы данных видео на нескольких этапах, повышая эффективность обучения.
- Видео DC-AE AutoEncoder значительно уменьшает количество токенов, сохраняя при этом высокую верность реконструкции.
- Трехэтапный тренировочный трубопровод оптимизирует обучение от данных с низким разрешением до тонкой настройки с высоким разрешением.
- Оценки предпочтений человека показывают, что Open-Sora 2.0 превосходит ведущие запатентованные и модели с открытым исходным кодом как минимум в двух категориях производительности.
- Модель сократила разрыв в производительности с SORA OpenAI с 4,52% до 0,69% в оценках VBENCH.
- Усовершенствованные системы оптимизации, такие как контрольно -пропускная точка активации и параллелизированная тренировка, максимизация эффективности графических процессоров и снижение аппаратных накладных расходов.
- Open-Sora 2.0 демонстрирует, что высокопроизводительное генерацию видео с искусственным интеллектом может быть достигнуто с помощью контролируемых затрат, что делает технологию более доступной для исследователей и разработчиков по всему миру.
Проверить бумага и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

Aswin AK является стажером консалтинга в MarkTechPost. Он получает двойную степень в Индийском технологическом институте, Харагпур. Он увлечен наукой данных и машинным обучением, обеспечивая сильный академический опыт и практический опыт решения реальных междоменных задач.
Парган: строите надежные агенты, обращенные к клиенту AI с LLMS 💬 ✅ (повышен)