加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多
Opena Voice AI的模型使他与演员斯嘉丽·约翰逊(Scarlett Johansson)陷入困境,但这并不能阻止该公司继续在这一类别中促进其建议。
今天,制造商Chatgpt介绍了三种越来越多的专有语音模型 GPT-4-Transcribe在 GPT-4O-Mini-Transcribe 和 GPT-4O-MINI-TTS最初在其应用程序编程接口(API)中可用于第三党软件开发人员,以在顶部以及用户演示网站OpenAI.FM上创建自己的应用程序,单个用户可以访问有限的测试和乐趣。
此外,GPT-4O-MINI-TTS模型可以通过文本提示从几个初步的分析中进行配置,以改变其重音,音调,音调和其他声音质量,包括用户所要求的任何情绪的传播,这应该非常重要同一情况,但在同一情况下,但在同一情况下,但在同一情况下,但在同一情况下,但在同一情况下,但在同一情况下,但在同一情况下为了支持,但要根据如何支持,但在同一情况下,但在连接中,但在同一情况下,在同一情况下,也可以连接到同一情况,但在同一情况下,但在同一情况下,在同一情况下,但在同一情况下也可以连接到相同的情况,但在同一情况下,但同时是相同的,但是在同一情况下,但同样,但同样,但同样,但同样,但同样是相同的。为此,他没有屈服。反正)。现在,用户必须在表演后如何决定他的人工智能声音。
在视频通话中交付的VentureBeat的演示中,Openai员工Jeff Harris展示了如何在演示网站上单独使用文本,用户可以使同样的声音听起来像是一个平静的瑜伽老师咯咯笑的疯狂科学家或Zen。
检测和改进新的GPT-4O机会
这些模型是现有的GPT-4O OpenAI模型的选项,该模型于2024年5月推出,目前支持许多用户的Chatgpt的文本和语音体验,但是即使在使用其他数据进行培训后,该公司也采用了该基本模型,以使其在转录和语音方面取得成功。该公司没有指出何时可以进入chatgpt。
Harris说:“从成本和绩效妥协的角度来看,Chatgpt有几种不同的要求,因此,尽管我希望他们会按时切换到这些模型,而此次发布则集中在API用户上。”
它旨在用开源代码代替开源代码的两年历史的OpenAI窃窃私语模型,在行业指标中提供较低的频率,并在嘈杂的媒体中提高性能,具有各种口音,各种语音速度是100多种语言。
该公司在其网站上发布了一张桌子,显示了降低了GPT-4-Transcribe型号的数量,以识别33种语言的单词,而英语的低语较低2.46%。

哈里斯说:“这些模型包括嘈杂的取消和语义语音活动的探测器,这有助于确定何时说话者完成思想,从而提高转录的准确性。”
哈里斯告诉VentureBeat,新的GPT-4-Transcribe模型家族无意提供“日记”,也不是在各种演讲者之间进行标记和差异化的可能性。取而代之的是,它主要是为了获得一个(或可能是几票)作为一个单个输入渠道,并在此交互中以一个输出语音响应所有输入,无论其多长时间。
该公司还举办了一项竞争,让公众竞争使用其演示语音网站OpenAi.fm的最具创造性的例子,并在线共享,并指出@Openai会计给X。获奖者必须使用OpenAi徽标接收一个用户工程广播,这是OpenAi产品的负责世界三个。
黄金常规音频应用
改进使它们特别适合于诸如客户呼叫中心,注释转录和基于人工智能的助手之类的应用。
令人印象深刻的是,自上周以来最近推出的SDK代理商还允许那些已经在其文本模型中以大型语言创建应用程序的开发人员,例如普通的GPT-4O,仅在OpenAI YouTube Rivestream期间使用九行代码添加液体语音互动,并宣布了新型号(插入了新型号)(插入了新型号)更高)。
例如,在GPT-4O上创建的电子商务应用程序现在可以回答转向用户问题,例如“告诉我有关我的最后订单”在语音中仅使用代码设置的几秒钟,并添加这些新模型。
哈里斯说:“我们第一次将流语音输入文本中,使开发人员能够不断引入音频并实时获得文本流,从而迫使对话更自然。”
然而,对于那些正在实时使用AI延迟延迟的开发人员,Openai建议使用他们的演讲实时在API中进行演讲。
价格和可用性
新型号可以通过API OpenAi立即获得,价格如下:
• GPT-4-Transcribe: 6.00美元的100万美元代币(每分钟约0.006美元)
• GPT-4O-Mini-Transcribe: 每100万美元的声音令牌$ 3.00(每分钟约0.003美元)
• GPT-4O-Mini-TTS: 100万个输入代币$ 0.60,100万美元的声音输出令牌(每分钟约0.015美元)为12.00美元
然而,他们在AI的转录和语音空间的激烈竞争中陷入了困境,具有特殊的AI语音公司(例如Elevenlabs),提供了新的Scribe模型,该模型支持示例化并具有相似(但不是很低)的英语频率3.3%的频率(但不是那么低)。每小时0.40美元(或每分钟0.006美元,粗糙,粗糙,粗糙,粗糙,粗鲁,粗鲁,粗鲁)。
另一个创业公司,休ume AI提供了一个新的八度TTS模型,该模型在句子级别,甚至是在发音和情感弯曲级别上的配置,仅基于用户的说明,而不是任何先前建立的投票。八度TT的价格不能直接直接可比,但是有一个自由级别提供10分钟的音频,而成本从那里增加了。
同时,一个更高级的音频和语音模型也出现在开源社区中,其中包括一个名为Orpheus 3B的音频和语音模型,该社区可与Apache 2.0解决许可证一起使用,这意味着开发人员无需支付任何启动它的费用 – 只要他们拥有适当的设备或云服务器。
行业采用和早期结果
根据OpenAI与VentureBeat分隔的指标,几家公司已经将新的OpenAI音频模型整合到了他们的平台中,报告了AI性能的重大改进。
专注于房地产管理自动化的公司Eliseai发现,Text Speet Openai模型使与租户的互动更加自然,情感上更丰富。
高级声音使巡回演出的租赁,维护和计划更具吸引力,从而提高了租户满意度并改善了背叛的博彩。
Decagon在AI发动机上创建了语音实验,使用OpenAI语音识别模型观察到30%的转录精度。
这种准确性的提高使得在实际情况,即使在嘈杂的环境中也可以更可靠地工作。集成过程很快:DeCagon在白天在其系统中包含了一个新模型。
并非所有对Openai上次发行版的反应都是温暖的。 Appaltics Dawn AIP Analytics软件的共同创始人,前设计师Apple Human Interface,该界面由Promising出版,该公告“感觉就像是实时的撤退”,从而从以前的OpenAi焦点过渡到OpenAi Focus通过聊天,与低拉丁裔的对话AI。
此外,发射之前是在X(以前的Twitter)上发生的早期泄漏。在正式公告前几分钟,TestingCatalog News(@TestingCatalog)发布了有关新型号的详细信息,列出了GPT-4O-MINI-TTS,GPT-4-4-TRANSCRIBE和GPT-4O-MINI-MINI-TRANSCRIST。泄漏归因于@stiventevev,这篇文章迅速获得了吸引力。
但是,展望未来,Openai计划继续改进其音频模型并研究用户语音功能,同时确保对AI的安全和负责任。除了音频外,OpenAI还投资了多模式AI,包括提供更具动态和交互式代理的视频。
每天有关VB每日业务使用方案的见解
如果您想打动老板,VB每天都会覆盖您。我们为您提供有关公司对生成AI的影响的内部勺子,从监管转变到实际部署,因此您可以分享对最大投资盈利能力的了解。
阅读我们的保密政策
感谢您的订阅。在此处查看更多VB信息选票。
发生错误。

Source link