声音AI,实际上是转换的:新的TTS模型将主要品牌的销售额提高了15%


加入企业领导人信任的活动近二十年。 VB变换结合了建立企业真实策略的人们。了解更多


产生不仅是人类和细微差别的声音,而且还 各种各样的 在AI中,仍然是一场斗争。

最后,人们希望听到听起来像他们或至少自然的声音,而不仅仅是播放20世纪的美国标准。

启动Rime使用Arcana Text-Topleak(TTS)解决了这个问题,这是一种新的对话语言模型,可以根据所谓的特征的简单文本描述来快速生成各个领域,年龄,人口统计学和语言的“无尽”新声音。

该模型有助于将Domino和Wingstop的客户销售增加15%。

Rime总经理兼联合创始人VentureBeat Lily Clifford说:“拥有真正高质量的生活,类似于生活的真实模型是一回事。” “另一个是拥有一个可以简单地创建一票的模型,以及沿着人口统计学线的声音无休止的变化。”

对一个人起作用的语音模型”

多模式和自动型号TTS Rime接受了与真实人的自然对话(与配音演员不同)的培训。用户只需介绍带有所需的人口统计特征和语言的语音的文字描述即可。

例如:“我想要一个住在加利福尼亚州并从事软件的30岁 – 老妇”或“给我一个澳大利亚男人的声音。”

克利福德说:“每次这样做时,您都会得到不同的声音。”

RIME TIST V2 TTS模型是为洋娃娃高度关键的应用程序构建的,允许企业为其业务创造独特的声音。克利福德说:“客户听到了一个声音,可以自然的动态对话而无需人类代理。”

同时,对于那些寻求异常选择的人,Rime提供了八个具有独特特征的旗舰扬声器:

  • 月亮(女人,寒冷但兴奋,乐观主义者Gen-Z)
  • 塞莱斯特(女人,温暖,躺着 – 背,开朗)
  • 猎户座(人,老人,非裔美国人,快乐)
  • Ursa(男人,20岁,2000年代的emo妈妈的百科全书知识)
  • 阿斯特拉(女人,年轻,大开)
  • 以斯帖(女人,长子,华裔美国人,爱)
  • Estel(女人,中等,非裔美国人,听起来很可爱)
  • 仙女座(女人,年轻,嘶哑,瑜伽

该模型具有在语言之间切换的能力,并且可以耳语,讽刺甚至模拟。当给予令牌时,Arcana也可以将笑声插入演讲中 罗马说,这可以返回各种现实的结果,从“小笑声到大古夫特”。该模型也可以解释 甚至 没错,尽管这并没有清楚地对此进行训练。

Raim在一篇技术文章中写道:“这是从上下文中引起的情绪。” “他笑着,叹了口气,嗡嗡作响,呼吸呼吸并在嘴里发出稀薄的声音。他说“思想”,其他不态度自然。它具有我们仍然发现的新兴行为。简而言之,他对一个人行事。”

捕捉自然对话

RIME模型生成了使用基于编解码器的方法在语音中解码的声音令牌,正如罗马所说,该方法提供的“比实际综合中更快”。开始时,第一个音频的时间为250毫秒,延迟的公共云约为400毫秒。

阿卡纳(Arkana)在三个阶段学习:

  • 初步培训:Rime使用了带有开源(LLM)的大型语言模型作为基础,并以前在一大批文本Audio对中接受了培训。
  • 在观察到具有“大量”专有数据集的准确设置下。
  • 特定于动态的精确设置:rime定义了他在数据集,对话和可靠性中发现“最模范”的扬声器。

RIME数据包括对话的社会语言方法(在社会环境中进行分解,例如阶级,性别,位置),成文学(个人言语习惯)和副语言细微差别(沟通的非语言方面与言语融为一体)。

该模型还接受了强调,填充物的单词(这些潜意识的“ uhs”和“ ums”),以及暂停,代理电压的模式(语调,时间,强调某些音节)和多语言代码切换(在语言之间进行多语言列时,

该公司已经接受了收集所有这些数据的独特方法。克利福德(Clifford)解释说,通常,模型建筑商将从人声演员那里收集片段,然后创建一个模型以根据文本输入来重现此人的特征。或者它们会刮掉有声读物的数据。

她解释说:“我们的方法完全不同。” “那是:“我们如何创建世界上最大的对话数据集? “

为此,Rime在旧金山的地下室建造了自己的声音录音室,并花了几个月的时间从Craigslist,通过一言不发地从口嘴到嘴,或者简单地聚集了因果关系,朋友和家人。他们没有说话,而是记录了自然对话和chat不休。

然后,他们用详细的元数据注释声音,编码性别,年龄,方言,语言和语言。这使Rime的准确性从98%到100%。

克利福德(Clifford)指出,他们正在不断补充此数据集。

她说:“我们如何个人听起来?如果您只使用配音演员,您将永远不会到达那里。” “我们做了一件非常困难的事情来收集真正的自然主义数据。巨大的秘密酱汁是这些不是演员。这些都是真实的人。”

“个性化家具”,创建投票以命令

Rime打算让客户有机会找到最适合其使用的选票。他们创建了“个性化腰带”工具,使用户可以通过各种声音通过A/B测试。在进行这种交互之后,API报告了RIME,该RIME提供了一个分析面板,该小组根据成功指标确定最有效的投票。

当然,客户对成功的电话有不同的定义。在食品服务中,这可能是免费或其他翅膀土豆的顺序增加。

“目标是我们如何创建一个应用程序,使我们的客户可以轻松管理这些实验?”克利福德说。 “由于我们的客户不是语音的董事,而且我们不是。任务是如何使这种个性化分析层真正地理解。”

另一个KPI客户是最大化呼叫人员与AI交谈的意愿。他们发现,当切换到rime时,呼叫订户更经常与机器人交谈。

“人们第一次看起来像:“不,您不需要翻译我。我已经准备好与您交谈,”克利福德说。“或者,当他们翻译时,他们说“谢谢”(实际上,实际上20%是在与机器人对话结束时亲切的)。

每月1亿个电话的电力

Rime被认为是Domino的,Wingstop,现在是Converse和Ylopo的客户。克利福德(Clifford)指出,他们在大型接触中心进行了大量工作。

“当我们转向Rime时,我们看到了挑战的可能性立即提高了两位数,” Counterenow工程技术总监Akshay Kayastha说。 “与rime一起工作意味着我们解决了以高曝光传递申请时出现的最后一英里的大量问题。”

Ylopo CPO ge Juefeng指出,对于他公司的高度传统应用,他们需要立即对消费者产生信心。他说:“我们测试了市场上的每个模型,发现Rime声音以最高指标转换了客户。”

根据克利福德(Clifford)的说法,rime已经在每月帮助喂食约1亿个电话。她说:“如果您称Domino的或Wingstop,那么您将听到声音的80%至90%的机会。”

展望未来,Rime将更多地推进本地建议,以保持低延迟。实际上,他们预计到2025年底,其数量的90%将在这一主题上。克利福德说:“这样做的原因是,如果您在云中启动这些模型,您将永远不会如此之快。”

此外,Rime继续配置其模型以解决其他语言问题。例如,模型从未面对的短语,例如“肉萨盛会”。正如克利福德(Clifford)所指出的那样,即使声音是个性化的,自然的并且是实时的,他也会失败,如果他无法满足公司的独特需求。

克利福德说:“我们的竞争对手仍然有很多问题考虑了最后一英里的问题,但我们的客户认为第一英里的问题。”


Source link
Scroll to Top