
英伟达的人工智能研究团队发布了DreamDojo,一个开源的互动机器人世界模型。
它利用机器人电机控制,生成像素模拟的未来;不需要引擎,不需要网格,也不需要手工创作的动态。英伟达人工智能总监兼杰出科学家吉姆·范称之为“仿真2.0”。
DreamDojo 是通过人类视频而非机器人数据学习
范解释说,现实世界的机器人学习受到时间、磨损、安全和重置的瓶颈。DreamDojo 试图通过先向人类学习来解决这个问题。
该模型基于44,000小时的第一人称人类视频预训练,且没有机器人介入。所谓的“潜在动作”是直接从视频推断出的统一表示,捕捉世界状态之间的变化,而不了解底层硬件,这使得模型能够在任何第一人称视频上训练,就像它附带了马达指令一样。
第二步,模型会在特定机器人上进行后期训练,以适应其硬件。范将它描述为“世界的外观和行为”与“这个特定机器人的作方式”分开。基础模型学习一般物理规则,然后适应机器人独特的机械结构。
DreamDojo的实时版本以每秒10帧运行,连续滚动超过一分钟稳定。它支持梦境内的实时虚拟现实远程作、神经模拟器中的策略评估以及基于模型的规划,均采用全球模型。
据范说,所有权重、代码、训练后数据集、评估集和白皮书都是公开的。DreamDojo 是基于 Nvidia Cosmos 构建的,Cosmos 也是开放权重的。更多细节见项目页面和论文。
