Объятие лица запускает Fastrt, чтобы упростить приложения AI в реальном времени и видео


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Объятие Face, стартап AI, оцениваемый в более чем 4 миллиарда долларов, представил Fastrtc, библиотеку Python с открытым исходным кодом, которая устраняет серьезные препятствия для разработчиков при создании приложений в реальном времени и видео AI.

«Построение приложений Webrtc и WebSocket в реальном времени очень сложно в Python»,-сказал Фредди Боултон, один из создателей Fastrtc, один из создателей Fastrtc. “До сих пор.”

Технология WEBRTC обеспечивает прямой браузер в браузер для звука из аудио, видео и данных без плагинов или загрузок. Несмотря на то, что внедрение WEBRTC является необходимым для современных голосовых помощников и видео инструментов, она осталась специализированной экспертизой, которой большинство инженеров машинного обучения (ML) просто не владеют.

Голос AI Gold Rush встречается с его техническим дорожным блоком

Срок не может быть более стратегическим. Voice AI привлекло огромное внимание и капитал – ElevenLabs недавно достигли финансирования 180 миллионов долларов, в то время как такие компании, как Kyutai, Alibaba и Fixie.ai, все выпустили специальные модели слуха.

Тем не менее, отключение сохраняется между этими сложными моделями ИИ и технической инфраструктурой, необходимой для их развертывания в адаптивные приложения в реальном времени. Как отмечалось в его блоге, «инженеры ML могут не иметь опыта работы с технологиями, необходимыми для создания приложений в реальном времени, таких как WEBRTC».

FASTRTC решает эту проблему с автоматическими функциями, обрабатывающими сложные части реальной связи. Библиотека обеспечивает обнаружение голоса, возможности поворота, тестовые интерфейсы и даже временный номер телефона для доступа к приложениям.

От сложной инфраструктуры до пяти строк кода

Основным преимуществом библиотеки является его простота. По сообщениям, разработчики создают базовые аудио-приложения в реальном времени только в нескольких строках кодовых, контрастирующих с ранее необходимыми неделями разработки.

Это изменение имеет существенные последствия для компаний. Ранее компании, нуждающиеся в специальных инженерах по коммуникациям, теперь могут использовать свои существующие разработчики Python для создания функций голоса и видео -AI.

«Вы можете использовать любой API LLM/Text-To-Talk/речь в тексте или даже модель речи-разоблачения»,-объясняет AD. «Принесите инструменты, которые вы любите FastESTRTC, просто справляйтесь с слоем связи в реальном времени».

Следующая волна голоса и видео -инновации

Введение Fastrtc сигнализирует о поворотном моменте в разработке AI -Aplica. Удаляя значительный технический барьер, инструмент открывает возможности, которые оставались теоретическими для многих разработчиков.

Воздействие может быть особенно значительным для небольших компаний и независимых разработчиков. В то время как технологические гиганты, такие как Google и Openai, имеют инженерные ресурсы для регулярной инфраструктуры реальной связи, большинство организаций этого не делают. Fastrtc, по сути, предоставляет доступ к навыкам, которые ранее были зарезервированы для тех, у кого есть специальные команды.

На «кулинарной книге» библиотеки уже показывается множество приложений: вокальные чаты, работающие на различных языковых моделях, видео объекта в реальном времени и интерактивное генерация кода с голосовыми командами.

Что особенно примечательно, срок. Fastrtc прибывает как раз в то время как интерфейсы ИИ превышают текстовые взаимодействия в более естественные, мультимодальные переживания. Наиболее сложные системы ИИ сегодня могут обрабатывать и генерировать текст, изображения, аудио и видео, но развертывание этих возможностей в адаптивных приложениях в реальном времени осталось трудным.

Чтобы присоединиться к разрыву между моделями ИИ и общением в реальном времени, FASTRTC не просто облегчает развитие-это может ускорить более широкий ход к опыту ИИ, усиленного голосом и видео, которые чувствуют себя более человеческими и менее компьютерами.

Для пользователей это может означать больше естественных интерфейсов через приложения. Для компаний это означает более быстрое реализацию функций, которые их клиенты все больше ожидают.

В конце концов, Fastrtc решает классическую проблему в технологии: навыки энергетики часто остаются неиспользованными, пока они не становятся доступными для ведущих разработчиков. Упрощение того, что когда -то было сложным, обнимающееся лицо удалило одно из последних крупных препятствий, стоящих между современными сложными моделями ИИ и вокальными первыми приложениями завтрашнего дня.


Source link
Scroll to Top