这套自主训练能力依托 ENPIRE 框架实现。英伟达、卡内基梅隆大学与加州大学伯克利分校的研究人员于周二发布论文,详细介绍该框架。ENPIRE 把机器人训练全流程交由 AI 编程智能体负责,这类智能体本身就能自主编写、调试代码,还可直接在实体硬件上运行整套训练流程。

过去一年,OpenAI 的 Codex、Anthropic 的 Claude Code、月之暗面 Kimi Code 这类编程智能体一直在开展研究人员所说的自主研究:全程无人介入,自主编写、测试、反复改写代码。此前这套流程大多仅停留在虚拟屏幕中,实验失败重置零成本;而 ENPIRE 框架将这套流程落地现实物理场景,想要重置实验,就要操控真实机械臂完成复位。
ENPIRE 系统搭建流程
整套系统分为两大阶段。第一阶段,人工引导智能体搭建两套固定工具:一是复位程序,能将实验操作台恢复至初始空白状态;二是奖励函数,通过识别摄像头画面评判任务完成度,相当于一位全天候无休的裁判。该配置仅需搭建一次,后续所有实验都可重复调用。
两套工具部署完成后,所有工作将完全交由智能体自主执行。它会检索现有学术文献获取方案思路,自主选择模仿学习、强化学习、人工规则等训练方式,自行改写代码并在实体机器人上开展实测。整套循环无需人工值守,有人会觉得这种模式解放人力,也有人会对无人看管的机器人手持剪刀作业感到些许不安。
英伟达在八套双机械臂工作站上开展本次实验,每套工作站均配备独立硬件、运算设备与专属编程智能体。工作站借助程序员通用的代码合并工具 Git 互通实验进展,一套高效可行的优化方案几分钟内就能同步至全部机器人集群。
研究人员通过两项任务验证该系统的效率提升效果:一项是 T 型推块任务,机器人仅依靠推送动作将 T 形方块移至指定区域;另一项是插销任务,需将销钉穿入 4 毫米孔径。机器人数量从 1 台扩容至 8 台后,掌握推块任务的耗时从约 5 小时缩短至 2 小时,插销操作训练时长也从 90 分钟以上压缩至 40 分钟左右。

论文显示,在四项实测实操任务中,智能体最终训练出的执行策略成功率达到 99%。针对插销作业,该方案的稳定达标速度远超传统人工介入模式 —— 后者每天都需要工作人员到场调试。
英伟达 GEAR 实验室联合负责人、公司 AI 研究主管Jim Fan表示,该项目首次在物理实体场景落地自主科研(AutoResearch)。他介绍,团队仅向智能体开放机器人集群、分配 GPU 算力额度与词元使用预算,之后便不再干预,全程交由机器人自主完成实验。
吉姆・范(@DrJimFan)2026 年 6 月 16 日发文:
我们首次实现物理世界自主科研!正式推出 ENPIRE 框架:我们为 8 个 Codex 编程智能体配备机器人集群、专属 GPU 算力以及充足词元额度,仅设定一个简单目标:尽快攻克作业任务,保持机器人不间断运转…… 配图链接pic.twitter.com/zC0OQNzDBs
论文提到,仿真环境与真实物理场景的差距很快显现:三款编程智能体都能在仿真程序中完成 T 型推块任务,但切换至实体机械臂实操后,其中两款全部失败。
仿真环境不存在摩擦干扰,真实操作台却无法规避这类物理问题。
英伟达还在机器人仿真基准平台 RoboCasa 中对 ENPIRE 开展测试,该平台模拟厨房场景,通过开橱柜、关闭炉灶等家务任务考核机器人,好在全程无起火风险。测试结果显示,ENPIRE 性能优于英伟达自研端到端大模型 GR00T,也高于完全舍弃自主迭代流程的工具型智能体 CaP-X。
ENPIRE 是英伟达 2023 年推出的 Eureka 系统的延伸升级。Eureka 依靠大语言模型为仿真环境内的机器人自动生成奖励函数,无需工程师手动编写;而 ENPIRE 将这套自主优化流程从仿真环境迁移至实体硬件,智能体不仅能自主设计奖励机制,还可独立设计全套测试方案。
英伟达发布该成果的同一周,阿里巴巴也推出具身 AI 相关产品通义机器人套件(Qwen-Robot Suite),包含三款基础模型,分别负责机器人导航、物体操控与物理仿真。阿里聚焦为第三方机器人硬件打造智能软件大脑;英伟达则验证编程智能体能否在自家全栈硬件上跑完完整自主研发流程。两家企业的布局指向同一行业趋势:实体机器人赛道,即将成为各类编程智能体角逐的全新战场。
