Songgen: полностью одностадийный авто-регрессивный трансформатор с открытым исходным кодом, предназначенный для управляемого генерации песен

Создание песен Из текста сложно, потому что он включает в себя создание вокала и инструментальную музыку вместе. Песни уникальны, поскольку они сочетают в себе тексты и мелодии для выражения эмоций, что делает процесс более сложным, чем генерирование речи или инструментальной музыки. Задача усиливается недостаточной доступностью качественных данных с открытым исходным кодом, которые сдерживают исследования и разработки в этом районе. Некоторые подходы включают в себя несколько шагов, с вокалом, сгенерированным в первую очередь, и аккомпанемент, генерируемый отдельно. Такой метод препятствует процессу обучения и прогнозирования и уменьшает контроль финальной песни. Основная задача заключается в том, может ли одношабельная модель упростить этот процесс при сохранении качества и гибкости.

В настоящее время модели генерации текста до музыки используют описательный текст для создания музыки, но большинство методов пытаются генерировать реалистичный вокал. Модели на основе трансформамеров обрабатывают аудио как дискретные токены, а диффузионные модели создают высококачественную инструментальную музыку, но оба подхода сталкиваются с проблемами вокального поколения. Generation Song, которая сочетает в себе вокал с инструментальной музыкой, опирается на многоэтапные методы, как Мужичный автоматВ Мелодисти МелодилмПолем Эти методы производят вокал и сопровождение независимо, поэтому процесс сложный и трудно управлять. Без общей стратегии гибкость ограничена, а неэффективность в обучении и выводе повышается.

Чтобы сгенерировать песню из описаний текста, текстов и необязательного эталонного голоса, исследователи предложили Сонггенавторегрессивный трансформатор с интегрированным нейронным аудиокодеком. Модель предсказывает последовательности звука, которые синтезируются в песни. Сонгген поддерживает два режима генерации: смешанный режим и Двойной режимПолем В Смешанный режимX.-Кодек Кодирует необработанное аудио в дискретные жетоны, с потерей обучения, подчеркивая более ранние кодовые книги для улучшения ясности вокала. Вариант, смешанный профессионал, вводит вспомогательную потерю вокала для повышения их качества. Режим двойного трека отдельно генерирует вокал и сопровождающий, синхронизируя их с помощью параллельных или чередующихся паттернов. Параллельный режим выравнивает токенов за кадром, в то время как режим интерреляции усиливает взаимодействие между вокалом и сопровождения по слоям.

Для кондиционирования тексты обрабатываются с помощью VoiceBpe Tokenizerголосовые функции извлекаются через замороженную МЕРТ ЭНКОДЕРи текстовые атрибуты кодируются с использованием Flan-T5Полем Эти встраиваемые руководство по генерации песен через перекрестное внимание. Из-за отсутствия общедоступных наборов данных текста в песню, автоматизированные процессы трубопровода 8000 часов звука из нескольких источников, обеспечивая качественные данные посредством стратегий фильтрации.

Исследователи оценили SongGen со стабильным Audio Open, MusicGen, Parler-TTS и SUNO для поколения текста к песне. MusicGen создал только инструментальную музыку, в то время как стабильный звук открылся, созданный неясные вокальные звуки, а также настраивать Parler-TTS для пения оказался неэффективным. Несмотря на использование только 2000 Часы маркированных данных Songgen превзошли эти модели в отношении актуальности текста и вокального управления. Среди его режимов «Смешанный профессионалПодход усилился вокальное качество (Ведущий) и Частота ошибок в фонеме (PER)в то время как метод с двумя треками «Интерривация (AV)» преуспел в качеством вокала, но имел немного более низкую гармонию (HAM). Анализ внимания показал, что SongGen эффективно захватил музыкальные структуры. Модель сохраняла согласованность с незначительными снижениями производительности даже без эталонного голоса. Исследования абляции подтвердили, что Высококачественная тонкая настройка (HQFT), Учебное обучение (CL) и Voicebpe-На основе лирической токенизации улучшает стабильность и точность.

В заключение, предложенная модель упростила генерацию текста к песне, введя одноступенчатый, авторегрессивный трансформатор, который поддерживал смешанные и двойные режимы, демонстрируя сильную производительность. Его функция с открытым исходным кодом сделала его более доступным, чтобы новички и эксперты могли создавать музыку с точным управлением голосом и компонентами прибора. Тем не менее, способность модели имитировать голоса является этически проблематичной, призывая к защите от злоупотреблений. В качестве основополагающей работы в управляемом поколении текста к песне SongGen может служить базовой линией для будущих исследований, направляя улучшения качества звука, лирического выравнивания и выразительного синтеза пения при решении этических и правовых задач.


    Проверить Технические детали и страница GitHub. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

    🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


    Divyesh – стажер консалтинга в Marktechpost. Он преследует BTECH в области сельского хозяйства и продовольственной инженерии от Индийского технологического института, Харагпур. Он является любителем науки о данных и машинного обучения, который хочет интегрировать эти ведущие технологии в сельскохозяйственную область и решить проблемы.

    🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top