Присоединяйтесь к событию, надежно со стороны корпоративных лидеров в течение почти двух десятилетий. VB Transform собирает людей, строящих настоящую корпоративную стратегию ИИ. Узнать больше
Генерируя голоса не только человеческие и нюансы, но и Разнообразие В разговорном ИИ все еще есть борьба.
В конце концов, люди хотят услышать голоса, которые звучат так, как будто они, по крайней мере, естественные, а не только стандарт трансляции 20 -го века США.
Первоначальный разрыв занимается этой проблемой с Arcana Text-Topleek (TTS), новой моделью разговорного языка, которая может быстро генерировать «бесконечные» новые голоса различных полов, возрастов, демографии и языков только на основе простого текстового описания целевых функций.
Модель помогла ускорить продажи клиентов – для Domino и Wingstop в любое время – на 15%.
«Одно дело иметь действительно высококачественную, похожую на живую модель»,-сказала VentureBeat Лили Клиффорд, генеральный директор и соучредитель Лили Клиффорд. «Есть другая, чтобы иметь модель, которая не может просто создать один голос, но бесконечное разнообразие голосов по демографическим линиям».
Голосовая модель, которая действует человеку »
Модель мультимодальной и автозарегрессивной TTS была обучена естественным разговорам с реальными людьми (в отличие от актеров вокала). Пользователи просто вводят текстовое описательное описание голоса с желаемыми демографическими функциями и языком.
Например: «Я хочу 30 -летнюю женщину, которая живет в Калифорнии и находится в программном обеспечении» или «дай мне голос австралийского мужчины».
«Каждый раз, когда вы это делаете, вы получите другой голос», – сказал Клиффорд.
TTS Model V2 TTS была построена для больших объемов, критически важных для бизнеса, что позволяет предприятиям создавать уникальные голоса за свои потребности в бизнесе. «Клиент слышит голос, который обеспечивает естественный, динамичный разговор без необходимости человеческого агента», – сказал Клиффорд.
Для тех, кто ищет варианты вне коробки, пока Ride предлагает восемь динамиков с уникальными функциями:
- Лунный (самка, круто, но возбудимые, оптимист Gene-Z)
- Селеста (женщина, теплый, облегченный, смешной)
- Орион (мужчина, пожилой, афроамериканский, счастливый)
- Урса (мужчина, 20 -лежая, энциклопедия знание 2000 года -emo -music)
- Астра (женская, молодая, широкая глаз)
- Эстер (женщина, старшая, китайская американская, любящая)
- Эстель (женщина, средняя, афроамериканская, звучит так мило)
- Андромеда (женщина, молодая, дыхательная, вибрации йоги)
Модель обладает способностью меняться между языками и может шептать, быть саркастическим и даже насмехаться. Аркана также может рассмешить речь, когда был дан токен
«Он вводит эмоции из контекста», – пишет Рифма в технической статье. «Он смеется, вздыхает, гудит, слышно дышит и издает тонкие рты.
Захват естественных разговоров
Модель RIME генерирует аудио токены, которые декодированы в речи под подходом на основе кода, который, как говорит Рим, «быстрее, чем синтез в реальном времени». При запуске время до первого звука составило 250 миллисекунд, а задержка общественного облака составила около 400 миллисекунд.
Аркана обучалась на три этапа:
- Предварительное обучение: Ride использовал большие языковые модели с открытым исходным кодом (LLMS) в качестве спины и предварительного обучения на большой группе пар текста, чтобы помочь Аркане изучать общий язык и акустические модели.
- Хорошо контролируется, чтобы настроиться на «массивную» собственную базу данных.
- Конфигурация, специфичная для динамика: Rime определил динамики, которые он нашел «наиболее образцовыми» среди своих баз данных, разговоров и надежности.
Данные RIME включают в себя социолингвистические методы разговора (факторинг в социальном контексте, такие как класс, пол, местоположение), идиосекция (индивидуальные речевые привычки) и паралингвистические нюансы (бессловесные аспекты общения, которые идут вместе с речью).
Модель также была обучена акцентированным тонкостям, заполняя слова (эти подсознательные «UHS» и «UMS»), а также разрывы, паттерны просодического напряжения (интонация, ограничение по времени, растяжение некоторых слогов) и обмен многоязычными кодами (когда многоязычные ораторы изменяются назад и перед языками).
Компания получила уникальный доступ к сбору всех этих данных. Клиффорд объяснил, что, как правило, модельные строители будут собирать фрагменты голосовых актеров, а затем создавать модель для воспроизведения характеристик голоса этого человека на основе текстового ввода. Или они будут отрезать слуховые данные.
«Наш подход был совсем другим», – объяснила она. «Это было», как мы создаем крупнейший в мире собственный набор данных о разговоре? “”
Чтобы сделать это, Римо построил свою собственную студию звукозаписи в подвале в Сан-Франциско и провел несколько месяцев, набирая людей из Craigslist, из уст в уста или просто вызывая себя, друзей и семьи. Вместо того, чтобы сценаривать разговоры, они записали естественные разговоры и болтовню.
Затем они прокомментировали голоса с подробными метаданными, кодируя пол, возраст, диалект, словесную привязанность и язык. Это позволило езду достичь точности от 98 до 100%.
Клиффорд отметил, что они постоянно увеличивают эту базу данных.
«Как мы звучам, что вы звучите лично? Вы никогда не добьетесь туда, если просто используете голосовые актеры», – сказала она. «Нам было трудно собрать действительно натуралистические данные. Огромный секретный соус Rimo в том, что это не актеры. Это настоящие люди».
«Личный ремень», который создает запланированные голоса
Rime намерен дать клиентам возможность найти голоса, которые будут работать лучше всего для их применения. Они создали инструмент «настройка жгута», чтобы позволить пользователям проходить A/B -тестирование с различными голосами. После определенного взаимодействия API сообщает о Ride, которая предоставляет аналитическую панель, идентифицирующую лучшие голоса производительности на основе успешных показателей.
Конечно, клиенты имеют разные определения того, что представляет собой успешный звонок. В пищевой службе это может быть увеличенным порядок картофеля фри или дополнительных крыльев.
«Цель для нас в том, как мы создаем приложение, которое облегчает наши клиенты?» Сказал Клиффорд. «Потому что наши клиенты не являются голосовыми директорами, и мы не являемся. Задача становится, как сделать этот личный аналитический слой действительно интуитивно понятным».
Другие клиенты KPI максимизируются за желание звонящего, чтобы поговорить с ИИ. Они обнаружили, что когда вы переходите на езду, абоненты в 4 раза чаще разговаривают с ботом.
«Впервые люди выглядят как:« Нет, вам не нужно переводить меня. Я совершенно готов поговорить с вами », – сказал Клиффорд. «Или, когда их переводят, они говорят:« Спасибо ».
Работа 100 миллионов звонков в месяц
Rime рассчитывается среди своих клиентов Domino, Wingstop, Converse Now и Ylopo. Корпоративные разработчики, создавшие системы интерактивного голосового ответа (IVR) и телекоммуникационные центры, они много работают с большими контактными центрами, строящие системы интерактивного голосового отклика (IVR).
«Когда мы перешли на RIMO, мы увидели немедленное двухзначное улучшение вероятности наших вызовов преуспеть»,-сказал Акшай Каястха, директор по технике инженерии в Convernow. «Сотрудничество с поездкой означает, что мы решаем тонну последних миль, которые появляются при отправке высокоэффективного приложения».
Илопо CPO GE Juefeng отметил, что для внешнего применения его компании им необходимо привести к немедленному доверию с потребителем. «Мы проверили каждую модель на рынке, и мы обнаружили, что голоса Rime преобразовали клиентов на самой высокой скорости», – сообщил он.
По словам Клиффорда, Rime уже помогает питать около 100 миллионов телефонных звонков в месяц. «Если вы называете Domino или Wingstop, есть вероятность от 80 до 90%, что вы слышите рифму», -сказала она.
Заглядывая в будущее, Rhyme подтолкнет больше местных предложений для поддержания низкой задержки. Фактически, они предвидят, что в конце 2025 года 90% их объема будут в предме. «Причина этого в том, что вы никогда не будете такими быстрыми, если вы управляете этими моделями в облаке», – сказал Клиффорд.
Кроме того, Ride продолжает настраивать свои модели для решения других языковых проблем. Например, фразы, с которыми модель никогда не сталкивалась, такие как Domino «Extravaganzza Meatza extravaganzza». Как отметил Клиффорд, даже если голос персонифицирован, естественен и отвечает в режиме реального времени, он потерпит неудачу, если не может справиться с уникальными потребностями компании.
«По-прежнему есть много проблем, которые наши конкуренты считают проблемами последней мили, но наши клиенты видят в одной миле проблемы»,-сказал Клиффорд.
Ежедневное понимание коммерческих вариантов использования с VB Daily
Если вы хотите произвести впечатление на своего босса, VB Daily прикрыл вас. Мы даем вам внутреннюю руку о том, что компании делают с генеративным ИИ, от регулирующих ходов до практических развертываний, так что вы можете поделиться пониманием максимальной рентабельности инвестиций.
Прочитайте нашу политику конфиденциальности
Спасибо за подписку. Посмотрите на дополнительную информацию VB здесь.
Произошла ошибка.

Source link