加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多
OpenAI GPT-4.5的发布有些令人失望,许多人表明其疯狂的价格(比Claude 3.7十四行诗高10-20倍,比GPT-4O贵15-30倍)。
但是,鉴于这是最大,最强大的OpenAI模型,您应该考虑其优势和发光的领域。
最佳知识和结盟
关于该模型的架构或教育案例的细节很小,但是我们大概评估了它的训练是计算机的10倍。该模型是如此之大,以至于Openai应该在几个数据中心传播培训,以便在合理的时间完成。
大型模型具有更大的能力来研究人类语言的世界知识和细微差别(鉴于它们可以访问高质量的学习数据)。这在Openai团队提出的某些指标中很明显。例如,GPT-4.5具有PersonQA的记录评级,PersonQA是评估AI模型中幻觉的标准。
实际实验还表明,GPT-4.5比其他符合事实和以下用户说明的通用模型更好。
用户指出,GPT-4.5的答案比以前的模型更自然,并且意识到上下文。他遵循语调和风格的主要原则的能力也有所提高。
在GPT-4.5退出后,AI科学家和OpenA Andrei Karpati的联合创始人,他们早期访问该模型,他说“ ED)是要看到不难推理的任务的改进,我会说这些任务是更均等的均等者(不同意的智商和智商),智商和创造性,创造性,创造性,等等,等等,等等,等等。 D.,一般,等。
但是,质量评估也非常主观。在Karpati为各种普罗巴特人工作的调查中,大多数人更喜欢GPT-4O答案对GPT-4.5。他在X上写道:“要么含有较高味道的测试人员会注意到一种新的独特结构,但低水产品会抑制调查。或者我们只是幻觉。否则这些示例根本不是很好。还是真的很近,样本量太小。或所有上述。”

文档的最佳处理
在其实验中,将GPT-4.5集成到其AI AI盒产品中的盒子写道,GPT-4.5“对于企业来说尤其强大,在该企业中,准确性和完整性是一个关键的任务……我们的测试表明,GPT-4.5-最佳模型,在我们的评估和求解它的能力方面可用。我们出现的许多最困难的AI问题。
Box在他的内部等级中发现,GPT-4.5在负责任务的企业家文档中更准确,原始GPT-4原件在其测试集中约为4个百分点。

盒子测试还表明,GPT-4.5在业务文档中内置的数学问题上成功了,这些问题通常面临较旧的GPT模型。例如,最好回答有关需要对数据进行推理和实施计算的财务文件的问题。
从非结构化数据中提取信息时,GPT-4.5还显示出改善的性能。在包括从数百个法律文件中提取字段的测试中,GPT-4.5比GPT-4O更精确地比例为19%。
计划,编码,结果评估
鉴于其改善的世界知识,GPT-4.5也可以成为为复杂任务创建高级计划的合适模型。破损的步骤可以通过较小但更有效的开发和执行模型来传输。
根据星座研究,“在对GPT-4.5的初步测试中,显然,它在代理计划和执行方面表现出了强大的机会,包括编码的多阶段工作过程和任务的复杂自动化。”
GPT-4.5也可用于编码需要内部和上下文知识的任务。现在,GitHub在其副本编码助手中提供了对模型的有限访问权限,并指出GPT-4.5“有效地执行创意技巧,并为晦涩的知识请求提供了可靠的答案。”
鉴于他更深入的世界知识,GPT-4.5也适用于“ LLM-AS-A-Agudge”任务,其中强大的模型评估了较小模型的结论。例如,诸如GPT-4O或O3之类的模型可以生成一个或多个答案,对解决方案的思想,并传递GPT-4.5的最终响应,以进行审查和澄清。
值得吗?
但是,鉴于GPT-4.5的巨大成本,很难证明许多使用选择是合理的。但这并不意味着它会如此。近年来,我们看到的持续趋势之一是输出成本的下降,如果将这种趋势应用于GPT-4.5,那么值得尝试并找到在企业中使用部队的方法。
还值得注意的是,这种新模型可以成为未来推理模型的基础。按照Carpathia:“请记住,GPT4.5仅受到初步,受控的创造和RLHF的培训(增强,从人类反馈中学习),因此这不是推理的模型。因此,在推理至关重要的情况下(数学,代码等),该模型的发布并不能促进模型的能力。
每天有关VB每日业务使用方案的见解
如果您想打动老板,VB每天都会覆盖您。我们为您提供有关公司对生成AI的影响的内部勺子,从监管转变到实际部署,因此您可以分享对最大投资盈利能力的了解。
阅读我们的保密政策
感谢您的订阅。在此处查看更多VB信息选票。
发生错误。

Source link