Meta Platforms Inc.的AI研究部门今天发布了一种新的人工智能模型,该模型通过解释视频信息来改善机器人和AI代理对物理世界的训练和理解,类似于人类理解世界的方式。
该模型名为J-VEPA 2,即视频联合嵌入预测架构模型,基于公司之前的J-VEPA的工作,允许AI代理和机器人“在行动前思考”。
“作为人类,我们认为语言对智能非常重要,但实际上并非如此,”Meta的副总裁兼首席AI科学家Yann LeCun说。“人类和动物通过构建现实的心理模型来导航世界。如果AI能够发展这种常识,具备在某种抽象空间中预测将要发生的事情的能力会怎样?”
Meta表示,这是一种最先进的AI世界模型,经过视频训练,使机器人和其他AI模型能够理解物理世界并预测其对行动的反应。
世界模型允许AI代理和机器人构建物理世界的概念,并理解行动的后果,以便为给定任务规划行动路线。通过世界模型,公司或组织无需在现实世界中进行数百万次试验,因为世界模型可以为AI模型模拟世界——通常在几分钟内——以便通过对世界运作方式的理解进行训练。
世界模型还可以用于理解和预测在采取某个行动后会发生什么,使连接到传感器的机器人或AI能够理解可能发生的下一个事件。人类在规划下一步时经常这样做,例如在陌生的地方行走时避免其他人或在打冰球时。
AI模型可以利用这种规划来帮助防止工作场所的事故,通过引导机器人在与其他机器人和人类一起工作的安全路径上行走,减少潜在的危险。
J-VEPA 2通过理解人们如何与物体互动、物体在物理世界中的移动方式以及物体如何与其他物体互动的模式,帮助AI代理理解物理世界及其交互。
公司表示,当该模型在其实验室的机器人上部署时,发现机器人可以使用J-VEPA 2轻松执行诸如伸手、拾取物体和将物体放置在新位置等任务。
“当然,世界模型对于自动驾驶汽车和机器人至关重要,”LeCun说。“事实上,我们相信世界模型将开启机器人技术的新纪元,使现实世界的AI代理能够在不需要大量机器人训练数据的情况下帮助完成家务和物理任务。”
除了发布J-VEPA 2,Meta还发布了三个新的基准,供研究界评估使用视频理解世界的现有推理模型。