OpenAI представила передовые аудио-модели «GPT-4O-Mini-TTS», «GPT-4-Transcribe» и «GPT-4O-Mini-Transcribe»: усиление синтеза речи в реальном времени и транскрипции для разработчиков

Ускоряющий рост голосовых взаимодействий в цифровом пространстве создавал все более высокие ожидания пользователей в отношении легких, естественных звуковых опытов. Традиционные технологии синтеза речи и транскрипции, как правило, защищаются за счет задержки, неестественности и недостаточной обработки в реальном времени, что делает их непригодными для реалистичных, ориентированных на пользователя приложений. В ответ на эти основные недостатки, OpenAI запустила коллекцию звуковых моделей, которые направлены на то, чтобы пересмотреть объем аудио взаимодействия в реальном времени.

OpenAI объявила о выпуске трех передовых аудио-моделей через свой API, значительный прогресс в способности разработчиков в реальном времени. Две модели, которые предназначены для использования речи в тексте и одну для текста в речь, позволяют разработчикам создавать агенты с AI, которые могут создавать более естественные, отзывчивые и персонализированные голосовые взаимодействия.

Новый набор состоит из:

  1. ‘gpt-4o-mini-tts’
  2. ‘gpt-4-transcribe’
  3. ‘gpt-4o-mini-transcribe’

Каждая модель спроектирована для удовлетворения конкретных потребностей в аудио взаимодействии, отражая постоянную приверженность Openai к повышению опыта пользователей в цифровых интерфейсах. Основным направлением этих инноваций является постепенное улучшение и преобразующие сдвиги в том, как звуковые взаимодействия управляются и интегрируются в приложения.

Модель «GPT-4O-Mini-TTS» отражает видение Openai о том, как оснастить разработчиков инструментами для создания реалистичной речи из вводов текста. В отличие от предыдущей технологии текста в речь, модель обеспечивает гораздо более низкую задержку с высоким натурализмом в голосовых реакциях. Основываясь на OpenAI, «GPT-4O-Mini-TTS» создает выдающуюся ясность голоса и природных речевых моделей, идеально подходящих для динамичных разговоров и интерактивных приложений. Влияние этой разработки является значительным, что позволяет таким продуктам, как виртуальные помощники, аудиокниги и устройства перевода в реальном времени, чтобы обеспечить опыт, который очень похож на подлинную человеческую речь.

Одновременно две модели транскрипции речи в тексте, оптимизированные для производительности, являются «GPT-4-Transcribe» и его менее интенсивным вариантом вычислительно вычислительно «GPT-4O-Mini-Transcribe». Обе модели оптимизированы для задач транскрипции в реальном времени, каждая из которых адаптирована к различным вариантам использования. «GPT-4-Transcribe» предназначена для ситуаций, требующих более высокой точности и лучше всего подходит для приложений с шумными или сложными диалогами или фоном. Он имеет лучшую точность, чем его модели предшественников, и обеспечивает высококачественную транскрипцию в неблагоприятных акустических условиях. С другой стороны, «GPT-4O-Mini-Transcribe» поддерживает быструю транскрипцию с низкой задержкой. Он лучше всего используется, когда скорость и уменьшенная задержка имеют решающее значение, например, устройства IoT с поддержкой голоса или системы взаимодействия в реальном времени.

Предлагая «мини-» версии своих современных моделей, OpenAI позволяет разработчикам, работающим в более ограниченных средах, таких как мобильные устройства или устройства с краями, все еще используют расширенные функции обработки звука без высоких накладных расходов. Эта новая разработка расширяет текущие возможности OpenAI, особенно после огромного успеха более ранних моделей, таких как GPT-4 и Whisper. Whisper уже установил новые стандарты точности транскрипции, а GPT-4 преобразовал разговорные возможности для разговорного ИИ. Текущие звуковые модели расширяют эти возможности на аудиопространство, добавляя расширенные возможности обработки голоса наряду с текстовыми функциями ИИ.

В заключение, приложения, использующие «gpt-4o-mini-tts», «gpt-4-transcribe» и «gpt-4o-mini-transcribe», готовы увидеть прибыль в взаимодействии с пользователем в целом. Обработка звука в реальном времени с лучшей точностью и меньшей задержкой ставит эти инструменты потенциально впереди игры для многих вариантов использования, требующих отзывчивости и прозрачности в аудиосессиях.


Проверить технические деталиПолем Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем


Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

Source link

Scroll to Top