OpenA将操作员更新到O3,这使Chatgpt Pro订阅$ 200更诱人


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


在Microsoft,Google和Anpropic的活动之后,这是人工智能公告的重要一周。但是Openai以他自己的消息结束了事情。不,我们不仅在谈论其对Joni Ive Designer团队的收购,以领导Openai上新的硬件工作“ IO”。

如今,该公司已使用以前的多模式大型语言模型GPT-4O更新了其操作员光标的自主网络查看和控制代理,以实现更强大的O3推理模型。

2025年5月23日,全球发布的更新可作为“研究初步观看”,以支付Openai订户每月为200美元的Chatgpt Pro支付。

实际上,这是Openai的一种方式,可以说这尚未完全“抛光”或完美的产品 – 它仍然可能有弯曲和问题。

但是有了竞争对手,Google以近250美元的价格提供了自己的AI Tier订阅套餐,约为250美元(目前,前三个月最高可达125美元),以访问其上一次多式联运的多模式,即VEO VEO视频的图像和型号的形成,突然可负担得起。

什么是Openai操作员,他为什么?

运营商在2025年1月首次首次亮相,是半自治剂的Openai的首次步骤,尤其是使用代理商(CUAS)的计算机。这个想法是超越Chatgpt Chatgpt接口,并允许AI OpenAI的强大模型开始代表用户采取更多操作。

因此,开发操作员是为了自主指示,单击,滚动并输入以执行网络效果的类型,例如预订,绘制购买列表或订购事件的门票。此代理机会使其可以通过浏览器界面直接执行用户任务,从预订到在线日期的集合。

出于安全性,机密性和安全原因,操作员没有在PC或Mac用户上使用任何现有的Web浏览器。取而代之的是,他在一个虚拟浏览器中工作,可通过自动site-operator.chatgpt.com–用户可以输入请求并实时观察代理的任务。

他结合了基于GPT-4O的远景,推理和互动的可能性,并指出了AIGAI中Openai的新方向。

该产品是针对Chatgpt Pro订户的研究初步观看的,并显示了内置的安全措施,例如用户确认,观察模式以及对高风险网络平台的限制。

它还在企业的背景下进行了检查,包括旅行计划和公务员服务,在消费者和商业媒体中都有潜力。

O3提供了提高的准确性,结构和成功指标

通过此更新,OpenAI试图在几个关键测量值中提高性能。新的O3操作员在浏览器相互作用过程中表现出提高的电阻和准确性。

从实际的角度来看,这意味着他很可能会成功完成用户的任务,并且需要更低的纠正或重复。此外,用户可以期望更清晰,结构化和更完整的答案。

在比较评估中,新模型显示出偏爱其前身的明显优势。对人类偏好的研究表明,用户更喜欢他的风格,丰满和清晰的O3模型。尽管版本之间的实际正确性结果更加平衡,但它还在指令和效率方面积极起作用。

第三方评估指标的生产率反映了这些改进。在测量基于浏览器的任务的性能的OSWorld标准上,O3模型获得42.9,而先前版本为38.1。

尽管如此,Openai指出,从自动评估系统中的限制中,实际提高性能可能接近20个百分点!

在Webarena上,新型号达到62.9,而48.1。最显着的改进出现在Gaia标准上,其中O3模型获得了62.2,显着超过了先前模型的12.3。

并排比较任务还说明了这些好处。在一个示例中,其中包括餐厅中的预订请求,新车型提供了更清晰,更详细的可用预订列表,包括位置,米其林评级和座位,并在良好的表格桌上呈现。以前的版本虽然功能性,但按照O3运算符的新版本包含的图像包含的图像以较少组织的方式提供了更少的信息:

有保证,以及有关使用机密,金融交易和访问帐户的一般性仔细说明

O3模型还继承了带有早期版本引入的安全措施,并将其作为代理系统的作用进一步配置。

OpenAI集成的扩展培训,以反对任务的有害执行,注射范围的快速漏洞以及与用户意图相关的错误。

估计表明,该模型在执行之前确认了94%的机密措施,并在金融交易中确认了100%。对注射的快速敏感性也从23%下降到20%。

值得注意的是,O3操作员在某些高风险系统(例如电子邮件或金融平台)中支持一个谨慎的边界,他可能会通过监视模式要求用户对用户进行监督,或者显然拒绝继续进行。这些措施是多层安全方法的一部分,该方法将模型级别的可靠性与实际时间监控结合在一起。

尽管对操作员的更新提高了技术的改进,但它也反映了OpenAI对负责AI的负责部署的不断承诺。

系统采取实际操作的能力引入了新的风险,并且一组开发人员继续适当改善其安全协议。

根据更新的O3 O3系统卡文档,该模型仍低于生物和化学滥用等类别中高风险可能性的阈值,并且没有编码或访问终端的本地环境,从而进一步降低了潜在的滥用量。

操作员仍在研究研究之前,仅适用于Chatgpt Pro用户。至少目前,操作员API版本的答案将继续基于GPT-4O模型。

使企业做出技术决策的人的后果

现代化的操作员将显着改善人工智能,编排,数据管理和安全性IT领域的专业人员的工作过程。

对于那些创建或支持机器学习模型的人,改进的模型和结构化输出的精度降低了测试测试和消除问题的间接费用。

在编排的背景下,他提供了一种实用,可靠的工具,用于根据浏览器自动化复杂管道的组件。

数据工程师可以将手动网络互动委托,例如数据验证和刮擦,更有信心,可以免费提供更高级别优化的时间。

同时,安全专家获得了一种更安全的方法来模仿用户行为,并通过审核和练习来响应由于分层模型安全机制而响应事件。

在这些学科中,基于O3的操作员既引入了功能的更新和降低风险的结构,这使其成为现代技术工具的实际补充。


Source link

You might also enjoy

Subscribe Our Newsletter

Scroll to Top