
在NeurIPS 2025上,NVIDIA宣布了一套涵盖自动驾驶、语音人工智能和安全研究的全新开放模型、数据集和工具,强化了其在开放数字和实体人工智能开发中的地位。
公司还获得了Artificial Analysis新推出的开放指数认可,该指数将NVIDIA的Nemotron系列列为最透明的模型生态系统之一。
NVIDIA 发布了 DRIVE Alpamayo-R1,公司称其为“全球首个用于自动驾驶的开放推理 VLA 模型”。
NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示,该模型将思维链推理与路径规划相结合,支持复杂道路场景和四级自主性的研究。
据英伟达介绍,AR1 会逐步拆解场景,考虑可能的轨迹,并利用上下文数据确定路线。其部分训练数据可通过NVIDIA的Physical AI Open Datasets获取,模型也可在GitHub和Hugging Face访问。
AR1基于NVIDIA Cosmos Reason,可定制用于非商业研究。NVIDIA表示,强化学习在模型后训练中非常有效,提升了其推理性能,相较于预训练版本。公司还发布了AlpaSim,一个用于评估AR1的开放框架。
此外,NVIDIA 在《宇宙手册》中通过新工具和工作流程扩展了 Cosmos 生态系统,为模型后训练、合成数据生成和评估提供了逐步指导。
基于Cosmos的新系统包括LidarGen,一个用于生成激光雷达数据的世界模型;Omniverse NuRec Fixer,用于纠正神经重建中的伪影;Cosmos政策将视频模型转化为机器人政策;以及ProtoMotions3,一个用于训练物理模拟数字人和机器人的框架。
行业合作伙伴,包括Voxel51、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI和X-Humanoid,正在使用Cosmos世界基础模型。苏黎世联邦理工学院的研究人员展示了NeurIPS的研究,展示了Cosmos模型如何生成连贯的三维场景。
在数字人工智能领域,NVIDIA推出了Nemotron和NeMo旗下的新模型和数据集。其中包括MultiTalker Parakeet,一种用于多说话环境的语音识别模型;Sortformer,一种日历模型;以及Nemotron内容安全推理,该公司表示该推理应用了领域特定的安全规则。
NVIDIA还开放了Nemotron内容安全音频数据集,用于检测不安全音频内容。还发布了合成数据和强化学习工具,包括用于强化学习环境的NeMo Gym和NeMo数据设计器库,后者现已在Apache 2.0下开源。
CrowdStrike、Palantir 和 ServiceNow 等合作伙伴正在使用 Nemotron 和 NeMo 工具进行专门的代理人工智能。
