Ai2发布MolmoAct 2，提升机器人在现实世界中的智能

2026年05月06日由佚名发表 36 0

总部位于西雅图的人工智能研究机构Ai2，即艾伦人工智能研究所，今天宣布推出其下一代开源基础人工智能模型，MolmoAct 2，旨在让机器人能够在现实世界中更好地运行。

去年八月，公司发布了其首个版本，MolmoAct，这是公司首个动作推理模型，一种新型的AI模型，允许机器在行动前对3D环境进行推理。Ai2表示，MolmoAct 2的发布在市场上大大超越了专有的机器人模型，并能以比其前身快37倍的速度处理各种现实世界任务。

除了MolmoAct 2，Ai2还发布了一个名为MolmoAct 2-Bimanual YAM的大型数据集，旨在成为有史以来发布的最大开源“双臂”演示手动数据源，包含超过720小时的训练数据。

公司表示，MolmoAct是在三个月内基于22小时的内部精选数据进行训练的。它证明了开放的、基于推理的架构可以在行业标准基准上击败更大封闭模型的可能性。MolmoAct 2延续了这一传统，并被设计用于在现实世界环境中工作。

为了创建MolmoAct 2，公司从头开始重建了整个架构。Ai2并没有简单地扩展Molmo 2，公司的视频理解AI模型，而是基于Molmo 2-ER设计的，这是公司基础模型的一个专门的具身推理变体。它在超过300万个基于图像的指点、物体检测、抽象空间推理、多图像推理以及基于图像和视频的空间问答示例上进行了训练。

这使得新模型能够在其内部配对一个专用的动作专家，通过3D推理生成机器人动作。公司表示，创建MolmoAct 2-Bimanual YAM数据集成为这一过程的基础。Bimanual指的是两个机器人手臂在协调任务中一起工作，例如折叠毛巾、扫描杂货、给智能手机充电或清理桌子。

拥有超过700小时的示例数据，它是行业中现有的最大数据集。公司表示，它通过额外的机器人数据集混合补充了数据集，使MolmoAct 2能够接触到不同的手臂、相机设置、控制方案和任务风格。

研究人员还通过减少重复和低质量注释，使指令更加多样化，从而改进了机器人数据的语言部分。为此，他们重新注释了机器人库，并将独特标签的数量从71,000增加到约146,000。

MolmoAct 2在现实世界中

机器人AI模型的真正测试是在现实世界中进行的。为了观察Molmo Act 2在实际环境中的表现，Ai2与斯坦福大学医学院的Cong实验室的研究人员进行了试点，该实验室由Le Cong教授领导，正在进行涉及遗传学的湿实验室工作。

Cong实验室涵盖CRISPR，这是一种出色的基因编辑机制，但该过程涉及大量的台面工作，在工作站之间移动，移液样本并高精度操作设备。研究人员表示，如果机器人偏离轨道，错误可能会迅速累积，从而迅速压倒并破坏整个测试运行。

在测试了一系列为工作流程微调的通用AI模型后，斯坦福团队发现Molmo Act 2在协助湿实验室操作方面显示出强大的潜力。

公司还表示，它对Molmo Act 2如何处理重新措辞的指令、移动的物体位置、干扰物体和物体替换进行了压力测试。这些测试帮助AI2的研究人员更好地理解模型如何处理变化的条件。

根据Ai2的说法，新模型显示出巨大的潜力，但仍然存在局限性。与其他机器人系统类似，当夹持器挡住相机视野时，当手臂无法像机器人控制系统那样快速移动时，或者当任务需要比现有更精细的操作时，它可能会遇到困难。

公司表示，解决和克服这些挑战将有助于建立一个共享的基础，这将帮助整个领域解决所有AI机器人模型的问题。开放模型将允许研究人员进行检查，并通过他们可以构建的数据集，公司的说法是很快将发布可以适应新机器和新情况的训练代码。

文章来源：https://siliconangle.com/2026/05/05/ai2-releases-molmoact-2-enhancing-robot-intelligence-real-world/

标签：

机器人

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta推出AI工具，通过骨骼结构和视觉信号识别未成年用户

下一篇图书出版商因AI的“逐字抄袭”而起诉Meta

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术