Преобразование речевых поколений: как набор данных Emilia революционизирует многоязычный естественный синтез голоса

Технология генерации речи значительно продвинулась в последние годы, однако остаются серьезные проблемы. Традиционные системы текста в речь часто полагаются на наборы данных, полученные из аудиокниг. В то время как эти записи обеспечивают высококачественное звук, они обычно отражают формальные стили чтения, а не богатые, разнообразные речевые модели повседневного разговора. Речь в реальном мире естественно спонтанна и наполнена нюансами-перекрывающимися динамиками, разнообразными интонациями и фоновыми звуками-которые редко встречаются в данных студийных записанных. Сбор спонтанной речи из повседневной жизни вводит свои собственные проблемы, такие как противоречивое качество звука и отсутствие точных транскрипций. Решение этих проблем необходимо для разработки систем, которые могут действительно воспроизвести естественный поток человеческого разговора.

Эмилия представляет собой вдумчивый шаг вперед в исследованиях генерации речи. Вместо того, чтобы полагаться исключительно на качественные записи, Эмилия опирается на речевые данные, собранные из различных источников, таких как видео платформы, подкасты, интервью и дебаты. Этот набор данных состоит из более чем 101 000 часов речи на шести языках – английском, китайском, немецком, французском, японском и корейском языке, что предлагает более широкий и более реалистичный спектр человеческой речи.

Создание набора данных поддерживается конвейером по обработке с открытым исходным кодом, известным как Emilia-Pipe. Этот конвейер был разработан для решения неотъемлемых проблем работы с неконтролируемыми повседневными аудиодадами. В дополнение к первоначальному набору данных, методология была расширена для создания Emilia-Large, которая содержит более 216 000 часов речи. Это расширение дополнительно обогащает набор данных, особенно для языков, которые обычно недопредставлены.

Технические детали

Трубопровод обработки Emilia-Pipe является центральным для создания надежного набора данных о речех из различных источников. Он состоит из шести тщательно разработанных этапов:

  1. Стандартизация: Чтобы обеспечить согласованность, все необработанные звуковые образцы преобразуются в равномерный формат WAV с моно -каналом и переименованы в 24 кГц. Этот процесс стандартизации создает прочную основу для дальнейшей обработки.
  2. Разделение источника: Поскольку в WILD Audio часто включает фоновую музыку и окружающий шум, трубопровод использует методы разделения источников для изоляции человеческой речи. Используя предварительно обученные модели, трубопровод эффективно извлекает вокальные компоненты, что делает речь более ясной для дальнейшего анализа.
  3. Диаризация динамика: Природные речевые записи часто содержат несколько динамиков. Emilia-Pipe использует расширенные инструменты дневника для сегментирования длинных аудио потоков на отдельные сегменты динамиков. Этот шаг имеет решающее значение для обеспечения того, чтобы каждый сегмент содержит речь от одного динамика, что, в свою очередь, помогает моделировать уникальные характеристики динамика.
  4. Мелкозернистая сегментация: Чтобы сделать данные более управляемыми, модель обнаружения голосовой активности (VAD) используется для дальнейшего сегмента звука на куски от 3 до 30 секунд. Это обеспечивает лучшее управление памятью и улучшает качество обучающих образцов.
  5. Автоматизированное распознавание речи (ASR): В трубопроводе используются надежные методы ASR для генерации транскрипций, что является критическим шагом, учитывая отсутствие ручных аннотаций в данных. Такие модели, как Whisper и его оптимизированные варианты, используются для обеспечения того, чтобы транскрипции были надежными и эффективными.
  6. Фильтрация: Наконец, строгая фильтрация применяется для удаления низкокачественных образцов. Критерии, основанные на идентификации языка, общее качество речи и фонетическую согласованность, помогают поддерживать высокий стандарт в наборе данных.

Этот систематический подход не только обеспечивает высококачественный набор данных, но и обеспечивает нюансированное представление речи реального мира. Тщательно обрабатывая данные, Emilia-Pipe позволяет исследователям работать с записями, которые отражают подлинное взаимодействие человека, а не идеализированные студийные условия.

Экспериментальные идеи

Эффективность набора данных Emilia очевидна благодаря ряду сравнительных исследований с традиционными наборами данных на основе аудиокниги. Модели, обученные на Эмилии, были оценены по нескольким объективным показателям, таким как частота ошибок слова (WER), сходство динамиков (S-SIM) и расстояние речи Fréchet (FSD), а также через субъективные тесты на прослушивание.

При сравнении формальной речи в стиле аудиокнига с более спонтанной речью модели, обученные на Эмилии, показывают заметные улучшения. Например, в наборах оценки, предназначенных для захвата спонтанных стилей разговоров, эти модели достигли более низкой частоты ошибок и показали более близкое сходство с естественной человеческой речью с точки зрения тембр и доставки. Это говорит о том, что, несмотря на происходящие из более шумных источников, тщательная обработка данных сохраняет важные естественные характеристики.

Эксперименты по изучению влияния размера набора данных еще больше показывают интересную тенденцию. Увеличение объема учебных данных – от меньших подмножеств до полной масштаба Эмилии – по существу повышает производительность модели. Первоначально, даже скромное увеличение данных дает значительные преимущества, в то время как большие объемы в конечном итоге приводят к снижению доходности. Это наблюдение имеет практические последствия для распределения ресурсов при обучении модели, выделяя баланс между размером набора данных и вычислительной эффективностью.

Кроме того, многоязычная природа Эмилии является значительным активом. Эксперименты с расширенным набором данных Emilia-Large показывают, что модели могут быть эффективно обучены на нескольких языках. Несмотря на небольшой компромисс производительности при переключении между монолингальными и многоязычными сценариями обучения, преимущества поддержки разнообразных языков намного перевешивают эти незначительные компромиссы. В кросс -тестах – где модель оценивается на языке, отличном от его языка обучения – есть некоторая деградация, но общая производительность остается надежной. Это указывает на то, что Эмилия служит прочной основой для разработки универсальных, многоязычных систем генерации речи.

Заключение

Набор данных Emilia и его основной обработок, Emilia-Pipe, предлагают вдумчивый и комплексный подход к развитию технологии генерации речи. Принимая данные в WILD, Эмилия предоставляет реалистичное и разнообразное представление человеческой речи на нескольких языках. Технические этапы обработки – от стандартизации и разделения источников до диализа, сегментации, ASR и фильтрации – работают вместе для создания набора данных, который отражает сложности естественного разговора.


Проверить бумага и набор данных. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top