Anprocic Openakes Openai:Claude Opus 4代码七个小时,不停止,设置SWE-Bench得分并重塑企业AI记录


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


Anpropic今天发布了Claude Opus 4和Claude Sonnet 4,这显着提高了AI在没有人类干预的情况下实现的事实。

Opus 4公司的旗舰模型将重点放在一个复杂的开源折射项目中,近七个小时,该项目在重新启动的过程中,该项目从真正合作的快速响应工具中转变为II,可以应对白天项目。

这种马拉松表现标志着以前人工智能模型的多重关注之外的量子飞跃。技术后果是深层的:AI系统现在可以处理从概念到完成的复杂软件开发,在整个工作日保持背景和专注。

Claude Opus 4的无动股票在SWE板凳上达到了72.5%,这是软件开发的标准,高于GPT-4.1 OpenAI,在4月推出时,它得分为54.6%。成就是由Anthrop在越来越拥挤的AI市场中成为强大的申请人确立的。

比较测试表明,Claude 4模型(左)在编码和推理的任务中领先于竞争对手,而Claude Opus 4则达到了SWE-Bench关键测试的72.5%。 (信用:ANTROP)

除了快速答案:推理的革命改变了AI

人工智能行业在2025年显着处理了推理模型。这些系统在响应之前有条不紊地解决了问题,对人类的心理过程进行建模,而不仅仅是将模型与教育数据进行比较。

Openai在去年12月的一系列“ O”中开始了这一转变,其次是Google Gemini 2.5 Pro,具有“深思熟虑”的实验能力。 DeepSeek R1模型由于其出色的机会以有竞争力的价格解决问题,因此意外地捕获了市场份额。

这回合标志着人们使用AI的基本发展。根据POE 2025春季模型趋势,推理模型的使用在四个月内增加了五次,从与AI相互作用的2%增加到10%。用户越来越多地将AI作为困难问题的思想合作伙伴,而不是简单的问题系统。

当新的人工智能模型抓住用户的兴趣时,消息报告的份额在2025年初增长。 (信用:由)

克劳德(Claude)的新模型通过将工具的使用直接整合到推理过程中来区分自己。这种同时研究方法再次反映了人类知识比以前在分析开始之前收集信息的系统更接近。暂停,寻找数据并在推理过程中包含新结果的能力,在解决问题方面创造了更自然和有效的经验。

双重体系结构平衡速度与深度

Anpropic通过他的混合方法检查了AI用户的经验中的恒定摩擦点。这两种Claude 4型号几乎都为简单请求提供了几乎即时的答案,并扩展了思考,以使令人失望的延迟陷入困境,即甚至简单的问题都提出的推理模型。

具有两种模式的该功能保留了用户期望的尖锐交互,同时在必要时解锁更深的分析能力。系统根据任务的复杂性动态分发心理资源,应用无法实现早期推理模型的平衡。

记忆的恒定是另一个突破。 Claude 4模型可以从文档中提取关键信息,创建合并的文件,并在提供适当许可时将其保存在不同的会话中。这种可能性解决了“失忆症问题”,该问题限制了AI在长期项目中的实用性,在该项目中应支持几天或几周的背景。

技术实施与人类专家开发知识管理系统的方式相似,而AI自动以优化未来搜索的结构化格式组织信息。这种方法使克劳德能够在长期的互动中建立对复杂域的越来越复杂的理解。

自AI领导人争取市场份额以来,竞争性格局加剧了

宣布中庭的时间强调了高级AI竞争的加速速度。 Openai推出其GPT-4.1家族仅五个星期后,Anpropic反对在关键指标中挑战或超过它的模型。 Google在本月初更新了Gemini 2.5线,而Meta最近发布了具有多模式功能和1000万个令牌窗口的Llama 4型号。

每个大型实验室在这个越来越专业的市场中都揭示了独特的优势。 Openai在一般推理和工具的整合中领先,Google超出了多模式的理解,目前Anthropic声称为可持续性和专业编码应用提供了冠冕。

对企业客户的战略后果是重大的。当前,组织面临越来越困难的解决方案,即AI系统被部署为特定使用选项,而没有单个模型主导所有指标。这种分裂使复杂的客户受益于可以利用人工智能的专业优势,挑战寻求简单统一解决方案的公司。

Anpropic通过Claude代码的一般版本将Claude的集成到工作过程中。当前,系统使用GITHUB操作支持背景任务,并在WS和Jetbrains星期三中合并,并直接在开发人员文件中显示建议的代码更改。

GitHub解决方案是使Claude Sonnet 4作为Github Copilot新编码代理的基本模型提供了重要的市场检查。与Microsoft开发平台的这种合作关系表明,大型技术公司通过人工智能多样化其合作伙伴关系,并且不仅依赖单个提供商。

Anpropic用新的API功能为开发人员提供了补充:代码执行工具,MCP连接器,API文件和缓存一个小时。这些功能使您可以创建更复杂的AI代理,这些AI代理可以保存在复杂的工作过程中 – 采用企业所必需的。

随着模型变得越来越复杂,会产生透明度

关于这些系统如何传达其思维过程的模型,“推理模型”的研究文章“推理的模型并不总是说出他们的想法”。他们的研究表明,Claude 3.7十四行诗提到了他仅在25%的案件中解决问题的决定性提示 – 提出了有关人工智能推理的透明度的重要问题。

这项研究阐明了日益增长的任务:由于模型变得更有能力,因此它们也变得更加不透明。七个小时的自主编码会话证明了克劳德·奥普斯4的耐力,还证明了人们完全检查这种扩展的推理网络将是多么困难。

目前,该行业面临着悖论,在这里,机会的增加确保了透明度的下降。这种张力的解决方案将需要新的方法来监督人工智能,这在有效性与解释之间取得了平衡 – 呼叫本身已得到认可,但尚未完全解决。

可持续合作的未来AI成形

七个小时的自主工作会议克劳德4提出了一个人AI在知识上的未来作用的想法。由于模型发展了扩展的重点和改善的记忆力,因此他们越来越想起员工,而不是能够稳定,艰难地工作的工具,而对人的监视最少。

这一进展表明组织将如何构建知识工作的方式发生了深远的转变。曾经需要一个人的持续关注的任务现在可以委派给人工智能系统,这些系统支持重点和环境几个小时甚至几天。经济和组织的后果将是重大的,尤其是在软件开发等领域,缺乏人才并且劳动力成本仍然很高。

由于Claude 4擦除了人类和机器智能之间的界线,因此我们在工作场所面临着新的现实。我们的任务不再想知道它是否可以与人类的技能相对应,而是适应未来,当时我们最有生产力的队友可以是数字而不是人类的队友。


Source link
Scroll to Top