FastrTC启动了面部武器,以实时简化AI应用程序。


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


开源Python图书馆Fastrtc提出了Face的拥抱AI初创公司,估计超过40亿美元,该图书馆在实时和视频中创建AI时消除了严重的障碍。

Fastrtc的创建者之一Freddie Bowleton在X.com的广告中说:“实时创建WebRTC和WebSocket应用程序非常困难。” “迄今为止。”

WEBRTC技术提供了与浏览器与浏览器的直接连接,以交换音频,视频和数据,而无需插件或下载。尽管实施WEBRTC对于现代语音助手和视频工具是必需的,但仍然是大多数机器学习工程师根本没有的专业技能。

AI淘金热的声音有技术障碍

时间不能更具战略性。语音AI引起了极大的关注和资本 – Elevenlabs最近获得了1.8亿美元的资金,而Kyutai,Alibaba和Fixie.ai等公司都发布了专业的音频模型。

然而,这些复杂的AI模型与它们在自适应应用程序中所需的技术基础架构之间存在差距。正如他们在博客消息中指出的:“ ML工程师可能没有实时创建应用程序(例如WebRTC)所需的技术经验”。

FastrTC通过自动函数解决这个问题,这些功能可以实时处理复杂的通信部分。图书馆可确保声音的检测,转弯的机会,测试接口,甚至临时生成电话号码以访问应用程序。

从复杂的基础架构到五行代码

图书馆的主要优点是它的简单性。据报道,开发人员可以在与先前所需的开发周相比的几行中实时创建主要的音频应用程序。

这种转变对企业产生重大影响。此前,需要专业通信工程师的公司现在可以使用其现有的Python开发人员来创建语音和视频AI功能。

“您可以使用任何API LLM/TOXT-to to speek/语音到文本,甚至是语音模型,”公告中解释说。 “带上您喜欢的工具,FastrTC只是实时处理通信级别。”

即将到来的声音和创新视频

FastrTC的引入标志着AI应用开发的旋转力矩。该工具消除了重大的技术障碍,为许多开发人员提供了理论上的机会。

对小型公司和独立开发商的影响尤其重要。尽管Google和OpenAI等技术巨头拥有用于实时创建用户通信基础架构的工程资源,但大多数组织却没有。 FastrTC实质上提供了对以前为拥有专业团队的人保留的功能的访问权限。

图书馆的“烹饪书”已经演示了各种应用程序:在各种语言模型上使用的语音聊天,实时检测对象的视频,并使用语音命令进行互动代码。

特别明显的是时间。 FastrTC以与AI接口相同的方式到达文本相互作用到更自然的多模式体验。当今最复杂的AI系统可以处理和生成文本,图像,音频和视频,但是这些功能在自适应应用中的部署实时仍然很困难。

FastrTC结合了人工智能模型与实时沟通之间的差距,不仅可以促进发展,而且有可能加速向声音和放大视频的更广泛的转变,这似乎更人性化,计算机更少。

对于用户而言,这可能意味着在不同应用程序中更自然的接口。对于企业而言,这意味着更快地实施其客户期望的功能。

最后,FastrTC解决了技术的经典问题:强大的功能通常仍然没有使用,直到它们为主要开发人员负担得起。简化了一旦变得复杂,拥抱的脸就消除了现代复杂模型和明天的声音应用之间的最后一个主要障碍之一。


Source link
Scroll to Top