Google今天正在准备其“最智力”的AI模型

Gemini 2.5被宣布为Google DeepMind今天是其“最聪明的AI模型”。

最后一代的第一个模型是Gemini 2.5 Pro的实验版本,根据DeepMind的说法,该版本已在广泛的标准中取得了现代成果。

根据Google DeepMind的技术总监韩国Kavukkuglu的说法,Gemini 2.5型号是“思考模型”。这意味着他们在产生答案之前通过思想进行推理的能力,这会导致性能提高和准确性提高。

kavukkuooglu解释了“推理”的能力,超越了简单的分类和预测。它包括系统分析信息,得出逻辑结论的能力,包括上下文和细微差别,并最终做出合理的决策。

DeepMind使用诸如训练和思想链中的培训等方法,一直在研究扩大智力和人工智能推理的可能性的时间。此基础导致了最近引入了他们的第一个思维模型Gemini 2.0 Flash Thinking。

Kavukkuguglu说:“现在,有了Gemini 2.5,我们已经达到了新的性能水平,将大幅改进的基本模型与训练后的改进相结合。”

Google计划将这些思考直接思考的能力集成到未来的所有模型中,这使他们能够解决更复杂的问题并支持更有能力的上下文代理。

Gemini 2.5 Pro在LMARENA领导者桌上提供第一名

Gemini 2.5 Pro实验定位为复杂任务的最先进的深媒体模型。在撰写本文时,他根据LMARENA-KEKEBOARD指标的领导者来确保第一名,以评估人类的偏好 – 它对于打开而言非常重要,这表明具有高质量风格的高度能力模型:

LMARENA领导者Sobde屏幕的图片,新的实验模型AI Gemini 2.5 Pro来自Google DeepMind刚刚获得了第一名。

Gemini 2.5是数学,科学,编码和推理中的“专业”

Gemini 2.5 Pro以各种需要扩展推理的标准展示了现代结果。

值得注意的是,它领导了数学和科学指标,例如GPQA和AIIME 2025,而不是依靠增加成本的测试方法,例如大多数人的投票。他还在人类的最后一次考试中达到了18.8%的现代分数,这是由受试者专家制定的一组数据,以评估知识和推理的人类边界。

DeepMind非常重视编码性能,与其前任2.0相比,Gemini 2.5是一个显着的跳跃,随着管道的进一步改进。 2.5 Pro成功地为代理代码创建了视觉上令人信服的Web应用程序和应用程序,以及代码的转换和编辑。

在验证SWE-Bench时,使用自定义代理设置评估Agent Code Gemini 2.5 Pro的行业标准达到63.8%。该模型推理的可能性还允许您创建一个视频游戏,从单行线索中生成可执行的代码。

https://www.youtube.com/watch?v=rlcbspgos6s

基于前辈的优势

Gemini 2.5基于早期双胞胎模型的主要优势,包括天然多模式和长上下文窗口。 2.5 Pro以一个令牌上下文的窗口以一百万个令牌的形式启动,并计划在不久的将来将其扩展到最高200万个令牌。这使该模型可以理解庞大的数据集并从涵盖文本,音频,图像,视频甚至整个代码存储库的各种信息来源解决复杂的任务。

开发人员和企业现在可以在Google AI工作室中开始尝试Gemini 2.5 Pro。高级Gemini用户还可以通过桌面和移动平台上的Drop -down模型访问它。该模型将在未来几周内部署在AI的顶部。

Google DeepMind呼吁用户提供反馈,该反馈将用于进一步扩大双胞胎的可能性。

(Anshita Nar的照片)

参见: DeepSeek V3-0324顶部不是Riseseing模型

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。

基于Techforge在此处探索企业技术和网络研讨会的其他事件。

Source link

Scroll to Top