
英伟达于周一宣布推出新的基础设施和AI模型,专注于构建物理AI的核心技术,这些技术包括能够感知并与现实世界互动的机器人和自动驾驶汽车。
这家半导体巨头推出了Alpamayo-R1,一个开放推理视觉语言模型用于在加利福尼亚州圣地亚哥的NeurIPS AI会议上进行自动驾驶研究。公司声称这是首个专注于自动驾驶的视觉语言动作模型。视觉语言模型能够同时处理文本和图像,使车辆能够“看见”周围环境并根据其感知做出决策。
这个新模型基于英伟达的Cosmos Reason模型,这是一个在响应前进行思考的推理模型。英伟达最初于2025年1月发布了Cosmos模型系列。额外的模型在8月发布。
像Alpamayo-R1这样的技术对于希望实现4级自动驾驶的公司至关重要,这意味着在特定区域和特定情况下的完全自主,英伟达在博客文章中表示。
英伟达希望这种类型的推理模型能赋予自动驾驶车辆“常识”,以便更好地处理类似人类的细微驾驶决策。
这个新模型可以在GitHub和Hugging Face上获取。
除了新的视觉模型,英伟达还在GitHub上上传了新的分步指南、推理资源和后训练工作流程——统称为Cosmos Cookbook——以帮助开发者更好地使用和训练Cosmos模型以适应他们的特定用例。指南涵盖数据策划、合成数据生成和模型评估。
这些公告发布之际,公司正全力推进物理AI,作为其先进AI GPU的新发展方向。
英伟达的联合创始人兼CEO黄仁勋多次表示,AI的下一波浪潮是物理AI。英伟达的首席科学家Bill Dally在夏季与TechCrunch的对话中呼应了这一观点,强调了机器人中的物理AI。
“我认为最终机器人将在世界上扮演重要角色,我们基本上想成为所有机器人的大脑,”Dally当时说。“为此,我们需要开始开发关键技术。”
