ARC奖推出了最难的标准AI:ARC-AGI-2

ARC奖推出了ARC-AGI-2铁杆标准,并伴随着2025年竞赛的宣布,奖品为100万美元。

随着AI从执行狭窄的任务到展示一般自适应智能的发展,ARC-AGI-2问题旨在确定能力的差距并积极指导创新。

ARC奖小组说:“良好的AGI测试是进步的有益指标。最佳的AGI测试显然区分了机会。最佳的AGI测试可以完成所有这些工作,并积极启发研究和直接创新。”

Arc-Agi-2将获得最佳类别。

在记忆之外

自2019年创建以来,ARC奖一直是研究人员争取AGI的“北极星”,创造了不断的测试。

诸如ARC-AGI-1之类的Citri倾向于衡量液体的智能(即适应新的隐形任务的能力。)这与仅奖励仅记忆的数据集有一个明显的偏离。

ARC奖项任务也远远远,努力为科学突破加快截止日期。它的测试不仅旨在衡量进度,还旨在激发新想法。

研究人员观察到使用Arc-Agi-1在2024年底在2024年底首次亮相的O3 OpenAI首次亮相。 O3将基于深度学习(LLM)的深层模型与推理合成的引擎相结合,指出了AI超出记忆的突破。

尽管如此,尽管进步了,但是O3等系统仍无效,并且需要在教育过程中进行大量的人类监督。为了挑战这些系统的真正适应性和有效性,ARC奖引入了ARC-AGI-2。

ARC-AGI-2:在人类机器上缩小差距

ARC-AGI-2形式对于AI来说更艰难,但保留了其对人的可及性。尽管AI边界上的推理系统继续被视为一个百分比,而Arc-Agi-2上的一个数字,但人们可以解决每个问题进行两次尝试。

那么什么是Arc-Agi隔离?他的设计理念选择了“对人们相对简单,但对于人工智能而言是严格或不可能的任务”。

该表格包括具有不同可见性和以下特征的数据集:

  • 符号解释: AI试图将语义意义与符号合适,而是专注于浅层比较,例如对称测试。
  • 组成推理: AI犹豫,何时需要同时应用几个交互规则。
  • 上下文规则的附录: 系统不能根据复杂的上下文来采用不同的规则,通常会固定在表面级别方案上。

大多数现有标准都集中在超人的能力上,以大多数人无法实现的规模测试高级专业技能。

Arc-Agi转动脚本,并强调AI尚无法做到。特别是决定人类智力的适应性。当对人来说简单的任务之间的差距,但是AI最终很难达到零,就可以宣布AGI。

但是,AGI的实现不仅限于解决问题的能力。效率 – 寻找解决方案所需的成本和资源 – 成为重要的决定因素。

有效的作用

对任务的绩效测量对于评估智力不仅是解决问题的可能性,而且有效地做到这一点的能力很重要。

现实世界的例子已经显示出人类和人工智能体系之间有效性的差距:

  • 人类小组的有效性: ARC-AGI-2任务以100%/任务的100%精度执行。
  • Openai O3: 早期的估计意味着,堡垒的成功水平为4%,每个任务200美元。

这些指标强调了人们与人工智能之间资源的适应和消费的差异。 ARC奖已承担报告有效性以及未来领导者表的结果的义务。

对有效性的主要关注阻止了总体武力的决策,这些决策被认为是“真正的智力”。

根据ARC奖,情报涵盖了以最低资源的搜索解决方案 – 质量,显然是人类,但对于AI仍然难以捉摸。

弧奖2025

ARC奖2025本周在Kaggle上推出,保证奖品的总数为100万美元,并展示了开源的领导者的活桌。竞争旨在促进可以有效解决ARC-AGI-2问题的系统方向的进步。

从2024年开始增加的奖品类别中,这是:这:

  • 主要奖项: 在Kaggle的有效性中获得了700,000美元的成功率85%。
  • 最高点的奖品: 最高评级为75,000美元。
  • 纸张奖: 有50,000美元以改变有助于解决Arc-Agi问题的想法。
  • 额外奖品: $ 175,000,详细信息在比赛期间等待广告。

这些激励措施提供了公平而重大的进步,这有助于研究人员,实验室和独立团队之间的合作。

https://www.youtube.com/watch?v=z6cttkvqayg

去年,2024年ARC奖展示了1,500个竞争对手团队,这导致了40篇著名行业。今年,利率的提高旨在取得更大的成功。

ARC Prive认为,进步取决于新想法,而不仅仅是扩展现有系统。有效的通用系统的下一个突破可能不是来自现代技术巨头,而是来自勇敢的创意研究人员,涵盖了复杂性和好奇的实验。

(提供的图像:弧奖)

参见: DeepSeek V3-0324顶部不是Riseseing模型

想进一步了解人工智能和行业领导者的大数据吗? 检查在阿姆斯特丹,加利福尼亚和伦敦举行的AI和大数据博览会。全面的活动以及其他领先活动,包括智力自动化会议,Blockx,一周的数字化转型和网络安全以及云博览会。

基于Techforge在此处探索企业技术和网络研讨会的其他事件。

Source link

Scroll to Top