
英伟达利用今年的NeurIPS大会展示了其希望加速自动驾驶汽车普及的新AI。
在圣地亚哥的活动中,公司展示了Alpamayo-R1(AR1),称其为全球首个工业规模的开放推理视觉语言动作(VLA)自动驾驶模型。
VLA模型可以同时处理文本和图像,这意味着车辆传感器可以将他们“看到”的内容转化为使用自然语言的描述。
英伟达的软件——以秘鲁安第斯山脉一座被认为难以扩展的山命名——将思维链式人工智能推理与路径规划相结合。这使得它能够比以往的自动驾驶软件更好地处理复杂情境,就像人类一样,先分解场景并考虑所有可能选项,然后再进行下一步。
英伟达表示,这一能力对于实现四级自动化至关重要——汽车工程师学会定义为汽车在特定情况下完全控制驾驶过程的四级自动化。
在与Alpamayo-R1发布同步发布的一篇博客文章中,英伟达应用深度学习研究副总裁Bryan Catanzaro举例展示了其工作原理。
卡坦扎罗表示:“通过利用AR1所支持的思维链推理,自动驾驶车辆在行人密集的自行车道旁行驶时,可以从路径中获取数据,结合推理痕迹——解释为何采取某些行动——并利用这些信息规划未来的轨迹,比如离开自行车道或为潜在的乱穿马路者停车。”
英伟达还提到,AR1的人文推理还能帮助其他细致情景,包括行人密集的路口、即将关闭的车道,或车辆双排停在自行车道上。
通过有效地用推理进行思考,AR1让工程师更清楚地理解为何做出了某个具体决策,这显然有助于他们更好地理解如何让车辆更安全。
该模型基于英伟达今年早些时候发布的Cosmos Reason,其开放访问将允许研究人员根据自身非商业用例进行定制,无论是用于基准测试还是构建自己的杀毒软件。
AR1 可在 GitHub 和 Hugging Face 上使用,据 Catanzaro 介绍,培训后的强化学习“特别有效”,研究人员报告称推理能力“显著提升”。
