总部位于西雅图的人工智能研究机构Ai2,即艾伦人工智能研究所,今天宣布推出MolmoAct 7B,这是一款突破性的开放式具身AI模型,能够让机器人在执行动作前进行“思考”,从而提升其智能水平。
空间推理对于AI模型来说并不新鲜,这些模型可以通过可视化图像或视频来推理世界,并得出结论。例如,用户可以将图像或视频上传到OpenAI的ChatGPT,询问如何组装桌子并获得答案。同样,机器人AI基础模型可以被指示拿起一个杯子并将其放入水槽中。
“具身AI需要一个新的基础,优先考虑推理、透明性和开放性,”首席执行官Ali Farhadi表示。“通过MolmoAct,我们不仅仅是在发布一个模型;我们正在为AI的新纪元奠定基础,将强大AI模型的智能带入物理世界。”
大多数机器人AI模型通过对提供给它们的语言进行推理来操作,分解自然语言句子——例如上面的例子,“拿起柜台上的杯子并放入水槽”——并将其转化为动作。它们通过结合从摄像头和其他传感器获得的知识和命令来实现这一点。
Ai2表示,MolmoAct是公司称之为动作推理模型(ARM)的新类别AI模型中的第一个,它能够解释高级自然语言,然后通过计划物理动作在现实世界中执行。与市场上作为视觉语言动作基础模型运作的当前机器人模型不同,ARM将指令分解为一系列路径点和动作,考虑到模型所能看到的内容。
“一旦它看到世界,它就会将整个世界提升到3D中,然后绘制一条轨迹来定义它的手臂将在那个空间中如何移动,”Ai2的计算机视觉团队负责人Ranjay Krishna在接受SiliconANGLE采访时说。“所以,它为未来做计划。在计划完成后,它才开始采取行动并移动其关节。”
ARM和VLA模型都作为机器人的“头脑”,包括AI模型机器人初创公司Physical Intelligence,Nvidia公司的GR00T N1用于人形机器人,OpenVLA,一个常被学术研究人员用于实验的7亿参数开源模型,以及Octo,一个93亿参数模型。参数指的是模型用于做出决策和预测的内部变量数量。MolmoAct包含7亿个参数,因此其名称中有7B。
公司使用1800万个样本在256个Nvidia H100图形处理单元的集群上训练模型,预训练大约在一天内完成。微调使用64个H100大约花费2小时。相比之下,Nvidia的GR00T-N2-2B在600万个样本上使用1024个H100进行训练,而Physical Intelligence使用900万个样本和未公开数量的芯片训练pi-zero。
“很多公司给你这些技术报告,但这些技术报告看起来像这样:中间有一个大黑盒子,上面写着‘transformer’,对吧?除此之外,你真的不知道发生了什么,”Krishna说。
与市场上许多当前模型不同,MolmoAct 7B是在一个经过策划的开放数据集上训练的,该数据集包含大约12,000个来自现实环境(如厨房和卧室)的“机器人情节”。这些演示用于映射目标导向的动作——例如整理枕头和收拾衣物。
Krishna解释说,MolmoAct通过完全开放来克服这一行业透明性挑战,提供其代码、权重和评估,从而解决“黑盒问题”。它既在开放数据上训练,其内部工作也透明且公开可用。
为了增加更多控制,用户可以在执行前预览模型的计划动作,其预期的运动轨迹叠加在摄像头图像上。这些计划可以通过自然语言或在触摸屏上绘制修正来修改。
这为开发人员或机器人技术人员提供了一种细粒度的方法,以在家庭、医院和仓库等不同环境中控制机器人。
Ai2表示,公司使用SimPLER评估了MolmoAct的预训练能力,这是一种使用一组模拟测试环境进行常见现实世界机器人设置的基准。使用该基准,模型实现了72.1%的最先进任务成功率,击败了Physical Intelligence、Google LLC、Microsoft Corp.和Nvidia的模型。
“MolmoAct是我们在这个领域的首次尝试,展示了推理模型是训练这些大规模机器人基础模型的正确方法,”Krishna说。“我们的使命是实现现实世界的应用,因此任何人都可以下载我们的模型,然后根据他们的任何目的进行微调,或者尝试直接使用。”