
总部位于西雅图的人工智能研究机构Ai2,即艾伦人工智能研究所,今天宣布推出其下一代开源基础人工智能模型,MolmoAct 2,旨在让机器人能够在现实世界中更好地运行。
去年八月,公司发布了其首个版本,MolmoAct,这是公司首个动作推理模型,一种新型的AI模型,允许机器在行动前对3D环境进行推理。Ai2表示,MolmoAct 2的发布在市场上大大超越了专有的机器人模型,并能以比其前身快37倍的速度处理各种现实世界任务。
除了MolmoAct 2,Ai2还发布了一个名为MolmoAct 2-Bimanual YAM的大型数据集,旨在成为有史以来发布的最大开源“双臂”演示手动数据源,包含超过720小时的训练数据。
公司表示,MolmoAct是在三个月内基于22小时的内部精选数据进行训练的。它证明了开放的、基于推理的架构可以在行业标准基准上击败更大封闭模型的可能性。MolmoAct 2延续了这一传统,并被设计用于在现实世界环境中工作。
为了创建MolmoAct 2,公司从头开始重建了整个架构。Ai2并没有简单地扩展Molmo 2,公司的视频理解AI模型,而是基于Molmo 2-ER设计的,这是公司基础模型的一个专门的具身推理变体。它在超过300万个基于图像的指点、物体检测、抽象空间推理、多图像推理以及基于图像和视频的空间问答示例上进行了训练。
这使得新模型能够在其内部配对一个专用的动作专家,通过3D推理生成机器人动作。 公司表示,创建MolmoAct 2-Bimanual YAM数据集成为这一过程的基础。Bimanual指的是两个机器人手臂在协调任务中一起工作,例如折叠毛巾、扫描杂货、给智能手机充电或清理桌子。
拥有超过700小时的示例数据,它是行业中现有的最大数据集。 公司表示,它通过额外的机器人数据集混合补充了数据集,使MolmoAct 2能够接触到不同的手臂、相机设置、控制方案和任务风格。
研究人员还通过减少重复和低质量注释,使指令更加多样化,从而改进了机器人数据的语言部分。为此,他们重新注释了机器人库,并将独特标签的数量从71,000增加到约146,000。
机器人AI模型的真正测试是在现实世界中进行的。为了观察Molmo Act 2在实际环境中的表现,Ai2与斯坦福大学医学院的Cong实验室的研究人员进行了试点,该实验室由Le Cong教授领导,正在进行涉及遗传学的湿实验室工作。
Cong实验室涵盖CRISPR,这是一种出色的基因编辑机制,但该过程涉及大量的台面工作,在工作站之间移动,移液样本并高精度操作设备。研究人员表示,如果机器人偏离轨道,错误可能会迅速累积,从而迅速压倒并破坏整个测试运行。
在测试了一系列为工作流程微调的通用AI模型后,斯坦福团队发现Molmo Act 2在协助湿实验室操作方面显示出强大的潜力。
公司还表示,它对Molmo Act 2如何处理重新措辞的指令、移动的物体位置、干扰物体和物体替换进行了压力测试。这些测试帮助AI2的研究人员更好地理解模型如何处理变化的条件。
根据Ai2的说法,新模型显示出巨大的潜力,但仍然存在局限性。与其他机器人系统类似,当夹持器挡住相机视野时,当手臂无法像机器人控制系统那样快速移动时,或者当任务需要比现有更精细的操作时,它可能会遇到困难。
公司表示,解决和克服这些挑战将有助于建立一个共享的基础,这将帮助整个领域解决所有AI机器人模型的问题。开放模型将允许研究人员进行检查,并通过他们可以构建的数据集,公司的说法是很快将发布可以适应新机器和新情况的训练代码。
