元新世界模型允许机器人在周三从未遇到过的物体操纵物体


加入企业领导人信任的活动近二十年。 VB变换结合了建立企业真实策略的人们。了解更多


尽管大型语言模型(LLM)掌握了文本(以及在某种程度上),但它们在动态,真实的环境中缺乏身体上的“常识”。这限制了AI在生产和物流等领域的部署,在生产和物流中的理解和调查至关重要。

最后一个META V-JEPA 2模型朝着克服这一差距迈出了一步,从视频和物理互动中研究了世界模型。

V-JEPA 2可以帮助创建人工智能的应用程序,这需要在许多情况下预测在不可预测的条件下的结果和计划行动。这种方法可以为更有能力的机器人提供清晰的途径,并在物理环境中扩大自动化。

“世界模型”如何学会计划

人们在很小的时候就发展身体直觉,观察自己的环境。如果您看到一个废弃的球,您本能地知道它的轨迹,并且可以预测它的降落。 V-JEPA 2研究了类似的“世界模型”,它是AI系统的内部建模,内容涉及物理世界的运作方式。

该模型建立在所采用应用程序所需的三个主要功能上:了解场景中发生的事情,预测场景将根据动作的不同而改变,并计划采取行动顺序以实现某个目标。根据Meta在其博客中的说法,其“长期愿景是世界模型将使AI的特工能够计划物理世界中的思想”。

该模型的体系结构称为预测架构,构建了视频中,由两个关键部分组成。编码器观看视频剪辑,并将其凝结到紧凑的数字简历中,称为简介。这项投资反映了有关物体及其在舞台上的关系的重要信息。第二个组件,即“预测变量”,然后接受此简历并表示场景的发展方式,从而产生了下一个简历的预测。

V-JEPA由一个编码器和预测器组成(来源:Meta Blog)
V-JEPA由一个编码器和预测器组成(来源:Meta Blog)

该体系结构是框架JEPA的最后一个演变,该架构最初应用于使用I-JEPA的图像,现在正在移至视频,展示了创建世界模型的一致方法。

与人工智能的生成模型不同,人工智能试图预测未来人为密集的任务-V-JEPA 2在抽象空间中起作用的每个像素的确切颜色。它专注于预测舞台的高级别功能,例如对象的位置和轨迹,而不是其纹理或背景细节,这使其比具有12亿参数的其他较大模型更有效。

这会导致计算成本的降低,并使其更适合在实际条件下部署。

研究观察和行动

V-JEPA 2在两个阶段进行研究。首先,他通过无私的学习创造了对物理学的基本理解,观察了超过一百万个小时的无核互联网视频。只需观察物体如何移动和互动,他就没有任何人类领导才能开发出通用的世界模型。

在第二阶段,该先前训练的模型精确地在一个小的专用数据集上配置。 V-JEPA 2仅处理视频的62小时,显示执行机器人的任务以及相应的控制命令,学会了将特定动作与其物理结果联系起来。这导致了一个可以计划和控制现实世界中的行动的模型。

V-JEPA两阶段训练管道(来源:MET)
V-JEPA两阶段训练管道(来源:MET)

这个两个阶段的训练为真正的自动化提供了关键的机会:射击零的机器人。基于V-JEPA 2的机器人可以部署在新环境中,并成功地操纵了他以前从未遇到过的对象,而无需在这种特定情况下进行重新训练。

与以前需要教育数据的模型相比,这是重大进展 准确的 机器人和将要工作的环境。该模型经过开放数据的开放数据,然后在Meta实验室中成功部署在不同的机器人上。

例如,要完成类似于对象的选择的任务,请给出机器人所需结果的目标图像。然后,他使用预测变量V-JEPA 2在内部模拟以下运动的可能范围。他根据目标与目标的距离评估每个虚构的动作,执行最大评分并重复该过程,直到完成任务为止。

使用此方法,该模型已达到成功指标的成功指标,而在新设置中,选择的任务和一个不熟悉对象的地方。

物理推理的真正影响

这种计划和行动在新情况下的能力对业务运营有直接的影响。在物流和生产中,它使您可以创建更多适应的机器人,可以在不进行大量重新编程的情况下处理产品和仓库的变化。这可能是特别有用的,因为公司研究了工厂和装配线中的人形机器人的部署。

同一世界模型可以导致一个非常逼真的数字双胞胎的模型,使公司能够在物理准确的虚拟环境中模拟新的流程或训练其他AI。在工业条件下,该模型可以监视机器的视频管道,并根据他对物理学的研究理解,预测安全性和故障问题。

这项研究是迈向元称为“高级机器智能(AMI)”的关键步骤,在该事实中,AI系统可以“像人们一样,计划,计划,不熟悉的任务,并有效地适应我们周围不断变化的世界的世界,了解世界。

梅塔(Meta)发布了一个模型及其教育守则,并希望“围绕这项研究建立一个广泛的社区,从而促进了我们发展世界模型的最终目标,这些目标可以改变与物理世界的AI之间的互动方法。”

这对那些做出企业技术决策的人意味着什么

V-JEPA 2将机器人技术带到了云模型上,云命令已经识别为:旅行一次之前,在任何地方部署。由于该模型从公共视频中研究了一般物理,并且需要数十个小时的工作人员,因此企业可以减少通常添加到试点项目的数据收集周期。从实际的角度来看,您可以使用可访问台式机的选择和位置的机器人的原型,然后在工厂地板上获得相同的策略,而不会收集数千个新鲜样品或编写移动的用户场景。

较低的间接费用还会改变价值方程。在12亿v-jepa 2参数时,它方便地拟合到一个高质量的图形处理器中,其抽象预测目标减少了结论的负载。这使团队可以通过闭路或边缘运行控制,避免根据工厂外的流媒体视频延迟云和头痛。曾经进入大规模计算集群的预算可以为其他传感器,冗余或更快的迭代偏差提供资金。


Source link
Scroll to Top