Sonnet Claude 3.7的野蛮人针对Openai和DeepSeek在AI的下一个大型战斗中


加入我们的每日和每周信息选票,以获取人工智能领先的行业照明中的最新更新和独家内容。了解更多


Anpropic刚刚发布了Sonnet Claude 3.7在OpenAI,DeepSeek和整个人工智能行业发布的警告镜头,该型号为用户提供了前所未有的控制时间和在产生答案之前进行“思考”的时间和思考。该版本与Claude Code首次亮相一起,是命令行上的AI编码代理,标志着AI Enterprise-Tolchka市场对Anpropic的积极推动,这可以改变企业创建软件并自动化工作的方式。

赌注不能更高。上个月,DeepSeek使用人工智能模型震惊了技术世界,该模型以一小部分成本与美国系统的功能相对应,使NVIDIA储备金提高了17%,并增加了有关美国领导力的警报。现在,Anpropic押注了以下事实:对AI推理的准确控制 – 原始速度或成本节省不仅会给它带来优势。

SONNET Claude 3.7代表“思考”开关,使用户可以根据任务的复杂性来优化人工智能的响应时间。 (信用:ANTROP)

“我们只是相信推理是人工智能的主要部分,也是主要组成部分,而不是您必须单独付款才能获得访问权限的单独的事情,”他在Anpropic的研究中进行了产品管理,他说AI与VentureBeat的访谈“像人一样,也应该应对快速的答案和复杂的思维。例如,对于一个简单的问题,“多少时间?”,他必须立即回答。但是,对于艰巨的任务,例如计划为期两周的意大利旅行,同时适应无麸质饮食需求,这是一个更广泛的处理时间。

她补充说:“我们看不到推理,计划和自我纠正是单独的机会。” “因此,实际上,这是我们表达这种哲学差异的方式……理想情况下,模型本身应该认识到问题何时需要更激烈的思考和调整,并且不需要用户明确选择各种推理模式。”

人工智能模型的比较显示了Claude 3.7十四行诗在各种任务中的表现,与其前任相比,在高级思维能力方面取得了显着的成功。 (信用:ANTROP)

控制数据证实了人类的雄心勃勃的愿景。在扩展的思维模式下,Claude 3.7十四行诗达到了毕业级别推理的准确性的78.2%,对最新的OpenAI模型提出了争议,并且在DeepSeek-R1之前。

但是更多的指示指标来自实际应用。该模型获得了重点关注零售贸易的工具的81.2%,并显示了指令收集的明显改善(93.2%) – 竞争者要么战斗或未发布结果的领域。

尽管DeepSeek和OpenAI在传统的数学标准中引导,但单个Claude 3.7方法表明,一个模型可以有效地在快速反应和深层分析之间切换,这有可能消除为各种任务维护单个AI系统的需求。

混合人类AI如何更改公司计算

发布时间至关重要。上个月,DeepSeek的出现导致了通过硅谷的冲击波,这表明,人工智能的复杂论证的计算能力比以前预期的要少得多。这挑战了关于发展人工智能和基础设施要求的成本的基本假设。当DeepSeek发布其结果时,NVIDIA股票在一天内下跌了17%,投资者突然想知道Advanced AI是否真的需要昂贵的筹码。

对于企业来说,赌注不可能更高。公司花费数百万美元,将AI整合到其活动中,并依靠哪种方法占主导地位。 Anpropic Hybrid模型提供了令人信服的平均道路:从即时答案到客户服务到复杂的财务分析,可以根据任务准确设置人工智能的能力。该系统支持先前的Anpropic价格为一百万个输入令牌的$ 3,即使具有其他推理功能,也为100万个令牌提供了15美元的价格。

SONNET Claude 3.7代表“思考”开关,使用户可以根据任务的复杂性来优化人工智能的响应时间。 (信用:ANTROP)

“我们的客户正在努力为客户取得成果,” Anprocic平台负责人Michael Gerthenhaber解释说。 “使用相同的模型,并以相同的方式提示了像汤普森路透这样的人进行法律研究的同一模型,使我们的编码合作伙伴(例如光标或Github)可以开发应用程序并与这些目标相对应。”

Anpropic Hybrid方法既代表技术进化和战略性智商。尽管Openai支持各种功能的单个模型,而DeepSeek专注于成本效益,但Anpropic参与了可以执行常规任务和复杂推理的联合系统。这是一种可以改变企业展开AI并消除操纵几种专业模型的需求的理念。

满足克劳德代码:新的AI开发人员助理

今天的拟人化还推出了Claude Code,这是一种命令行工具,允许开发人员将复杂的工程任务直接委托在AI中。该系统需要在进行代码变更之前批准一个人,反映出不断增长的行业专注于AI负责任的发展。

新开发人员Deweloper软件包的一部分Claude Code终端的接口强调简单性和直接交互。 (信用:ANTROP)

“您确实必须仍然接受Claude所做的更改。您是一名手()轮子的评论者,” Penn指出。 “实际上,您必须接受一种控制列表,以便模型采取某些动作。”

广告是在AI开发中的密集竞争背景上。斯坦福大学的研究人员最近创建了一个开源讨论的模型,价格不到50美元,而微软刚刚将Openai O3-Mini模型集成到了Azure中。当一些公司研究模型蒸馏方法以进一步降低成本时,DeepSeek的成功也激发了人工智能发展的新方法。

Claude Code命令行的界面允许开发人员在维持人类监督的同时委派复杂的工程任务。 (信用:ANTROP)

从口袋妖怪到企业:新智能AI的测试

宾夕法尼亚州以一个出乎意料的例子说明了AI功能的巨大进步:“我们要求克劳德(Claude)玩Pokemon的不同版本…此版本驶向朱红城(Vermilion City),捕获了几个Pokemon,甚至磨碎了该领域该领域有合适的口袋妖怪与竞争对手作战。”

佩恩解释说:“我认为您会看到我们继续引入创新,并努力争取推理的质量,促进诸如动态推理之类的事物。” “我们一直将其视为智力的主要部分,而不是分开的东西。”

通过企业的采用,将对人类方法进行真正的测试。尽管口袋妖怪的游戏似乎很容易,但这表明了如何需要自适应智力业务的类型:AI,可以应对普通运营和复杂的战略解决方案而无需在专用模型之间切换。克劳德(Claude)的较早版本无法超越游戏开始城市的边界。最新版本会创建策略,控制资源并制作战术解决方案的能力,以反映实际业务问题的复杂性。

对于公司客户而言,这可能意味着维护多个AI系统的各种任务和部署单个功能更强大的解决方案之间的区别。接下来的几个月将显示Anprocic是否会改变人工智能的统一论点,改变企业市场或成为行业快速发展的另一个实验。


Source link
Scroll to Top