企业的GPT-4.5：它的准确性和知识是否证明其准确性是合理的？

加入我们的每日和每周信息选票，以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多

OpenAI GPT-4.5的发布有些令人失望，许多人表明其疯狂的价格（比Claude 3.7十四行诗高10-20倍，比GPT-4O贵15-30倍）。

但是，鉴于这是最大，最强大的OpenAI模型，您应该考虑其优势和发光的领域。

最佳知识和结盟

关于该模型的架构或教育案例的细节很小，但是我们大概评估了它的训练是计算机的10倍。该模型是如此之大，以至于Openai应该在几个数据中心传播培训，以便在合理的时间完成。

大型模型具有更大的能力来研究人类语言的世界知识和细微差别（鉴于它们可以访问高质量的学习数据）。这在Openai团队提出的某些指标中很明显。例如，GPT-4.5具有PersonQA的记录评级，PersonQA是评估AI模型中幻觉的标准。

实际实验还表明，GPT-4.5比其他符合事实和以下用户说明的通用模型更好。

用户指出，GPT-4.5的答案比以前的模型更自然，并且意识到上下文。他遵循语调和风格的主要原则的能力也有所提高。

在GPT-4.5退出后，AI科学家和OpenA Andrei Karpati的联合创始人，他们早期访问该模型，他说“ ED）是要看到不难推理的任务的改进，我会说这些任务是更均等的均等者（不同意的智商和智商），智商和创造性，创造性，创造性，等等，等等，等等，等等。 D.，一般，等。

但是，质量评估也非常主观。在Karpati为各种普罗巴特人工作的调查中，大多数人更喜欢GPT-4O答案对GPT-4.5。他在X上写道：“要么含有较高味道的测试人员会注意到一种新的独特结构，但低水产品会抑制调查。或者我们只是幻觉。否则这些示例根本不是很好。还是真的很近，样本量太小。或所有上述。”

在其实验中，将GPT-4.5集成到其AI AI盒产品中的盒子写道，GPT-4.5“对于企业来说尤其强大，在该企业中，准确性和完整性是一个关键的任务……我们的测试表明，GPT-4.5-最佳模型，在我们的评估和求解它的能力方面可用。我们出现的许多最困难的AI问题。

Box在他的内部等级中发现，GPT-4.5在负责任务的企业家文档中更准确，原始GPT-4原件在其测试集中约为4个百分点。

盒子测试还表明，GPT-4.5在业务文档中内置的数学问题上成功了，这些问题通常面临较旧的GPT模型。例如，最好回答有关需要对数据进行推理和实施计算的财务文件的问题。

从非结构化数据中提取信息时，GPT-4.5还显示出改善的性能。在包括从数百个法律文件中提取字段的测试中，GPT-4.5比GPT-4O更精确地比例为19％。

鉴于其改善的世界知识，GPT-4.5也可以成为为复杂任务创建高级计划的合适模型。破损的步骤可以通过较小但更有效的开发和执行模型来传输。

根据星座研究，“在对GPT-4.5的初步测试中，显然，它在代理计划和执行方面表现出了强大的机会，包括编码的多阶段工作过程和任务的复杂自动化。”

GPT-4.5也可用于编码需要内部和上下文知识的任务。现在，GitHub在其副本编码助手中提供了对模型的有限访问权限，并指出GPT-4.5“有效地执行创意技巧，并为晦涩的知识请求提供了可靠的答案。”

鉴于他更深入的世界知识，GPT-4.5也适用于“ LLM-AS-A-Agudge”任务，其中强大的模型评估了较小模型的结论。例如，诸如GPT-4O或O3之类的模型可以生成一个或多个答案，对解决方案的思想，并传递GPT-4.5的最终响应，以进行审查和澄清。

但是，鉴于GPT-4.5的巨大成本，很难证明许多使用选择是合理的。但这并不意味着它会如此。近年来，我们看到的持续趋势之一是输出成本的下降，如果将这种趋势应用于GPT-4.5，那么值得尝试并找到在企业中使用部队的方法。

还值得注意的是，这种新模型可以成为未来推理模型的基础。按照Carpathia：“请记住，GPT4.5仅受到初步，受控的创造和RLHF的培训（增强，从人类反馈中学习），因此这不是推理的模型。因此，在推理至关重要的情况下（数学，代码等），该模型的发布并不能促进模型的能力。

每天有关VB每日业务使用方案的见解

如果您想打动老板，VB每天都会覆盖您。我们为您提供有关公司对生成AI的影响的内部勺子，从监管转变到实际部署，因此您可以分享对最大投资盈利能力的了解。

阅读我们的保密政策

感谢您的订阅。在此处查看更多VB信息选票。

发生错误。