该模型的新型Elevenlabs模型在此处的文本中具有很高的精度(英语为96.7%)


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


Elevenlabs是Palantir的前毕业生的高度保护克隆AI声音和一代创业的一代,今天推出了Scribe V1,这是文本中的一种新的演讲模型,据报道,在几种语言中达到了最高的精度。用户可以在这里尝试。

根据该公司的标准,它超过了Flash Google Google Gemini 2.0,Openai的Whisper V3和DeepGram 11月3日,在俗语中的语音确切转换为互联网上的文本,达到了新的低速错误。

该公司声称,Scribe提供了99种语言转录的当前准确性,包括提高以前服务的语言的性能,例如塞尔维亚,广州和Petty。

正如弗拉维奥·施耐德(Flavio Schneider)所写的那样,主要的研究员Elevenlabs在X上写道,Scribe是Elevenlabs发布的“对音频的理解最聪明的模型”。

施耐德在分支机构继续说:“抄写员不仅是抄录的 – 他了解音频。” “他可以检测到非语言事件(例如笑声,声音效果,音乐和背景噪音),并在确切的一天,即使在最困难的环境中分析了较长的音频环境。”

“诊断”是说话者通过记录的声音素质分离的过程。

实际上,ElevenLabs文档声称,抄写员可以在一个音频文件中区分和隔离32个不同的扬声器。

尽管ElevenLabs警告说,抄写员“在具有高精度的转录(而不是真实的时间转录)时可以使用”,但该公司还计划引入低延迟版本,扩大其用于实时应用程序的使用。

单词错误的最低频率(wer)

Scribe旨在精确地解决真实的音频区域。根据基准的结果逃跑和共同的声音,他记录了许多语言的单词错误(WER)的最小频率,包括意大利语(98.7%)和英语(96.7%)。

关键功能包括:

  • 日记动力学以在多学科注释中区分扬声器。
  • 单词水平临时标记,以详细的转录准确性。
  • 检测非语音事件,例如笑声和背景噪音。
  • 通过API进行无缝集成的结构转录输出。

价格和可用性

现在可以通过网站Elevenlabs和API获得抄写员。

定价设定为每小时0.40美元的音频音频,在接下来的六周内享受50%的折扣。实时的低 – 德莱版本也在开发中。

这对企业意味着什么

对于做出企业决策的人们,Scribe提供了一种具有高精度可扩展转录的工具,这使其对依靠自动文档,转录会议和内容的可用性的行业有用。

模型以高精度处理各种语言的能力也使跨国企业,媒体公司和客户支持应用程序受益。

Scribe定价结构使其对需要大量转录量的企业具有竞争力,其API集成使您可以自由地引入公司工作流程。

此外,延迟较低的即将到来的版本可以将抄写员定位为真实时间通信工具的可行选择。

在同一天,文本与语音的相反模型,休ume的八度竞争对手

时间就是一切,Elevenlabs决定在竞争八度的同一天启动抄写员,即To Text To Speak Model,该模型允许用户配置AI所创造的具有受管制情绪的票数。

它旨在创建内容,包括有声读物,播客和视频游戏。与标准TTS系统不同,八度考虑了单个句子之外的上下文,以动态调节音调,节奏和节奏似乎更自然。

HOM AI将Octave定位为Elevenlabs的直接竞争对手“提供”文本到Speek,强调八度的价格大约是当前Levabs语音服务的一半。

虽然抄写员和八度执行不同的功能,但它们的发展反映了由人工智能控制的音频模型中日益增长的竞争。

ElevenLabs安排了准确的多语言语音识别,而Home AI则通过AI促进表达性语音。

对于企业而言,这意味着针对转录和合成语音应用程序的更专业的解决方案,这些解决方案为内容生产提供了更有效的工具,涉及客户和可访问性。

Scribe现在活着,Elevenlabs下周举行了一个虚拟活动,一支球队站在其发展后面。博客上的官方消息中提供了更多详细信息,测试和API文档。


Source link

You might also enjoy

Subscribe Our Newsletter

Scroll to Top