机器人技术的最新进展使得各种现实世界任务的自动化成为可能,从工业环境中的商品制造或包装到微创手术的精确执行。机器人还可以帮助检查对人类来说危险或难以接近的基础设施和环境,如隧道、大坝、管道、铁路和发电厂。
尽管在安全评估现实环境方面有很大潜力,目前大多数检查仍由人类执行。近年来,一些计算机科学家一直在尝试开发计算模型,以有效规划机器人在检查特定环境时应遵循的轨迹,并确保它们执行的动作能够完成所需的任务。
普渡大学和LightSpeed Studios的研究人员最近介绍了一种新的无需训练的计算技术,用于生成检查计划,基于书面描述,可以指导机器人在检查特定环境时的移动。他们在一篇论文中概述了他们提出的方法发表在arXiv预印本服务器上,特别依赖于视觉语言模型(VLMs),这些模型可以处理图像和书面文本。
“我们的论文灵感来自自动化检查中的现实挑战,在这些应用中,生成特定任务的检查路线对于基础设施监控等应用至关重要,”论文的第一作者Xingpeng Sun告诉Tech Xplore。
“虽然大多数现有方法使用视觉语言模型(VLMs)来探索未知环境,但我们采取了一种新颖的方向,通过利用VLMs在已知3D场景中进行细粒度的机器人检查规划任务,使用自然语言指令。”
Sun和他的同事们最近研究的关键目标是开发一个计算模型,能够简化围绕特定需求或任务的检查计划的生成。此外,他们希望该模型能够在不需要对大量数据进行进一步微调VLMs的情况下良好运作,因为大多数其他基于机器学习的生成模型都需要这样做。
“我们提出了一种无需训练的流程,使用预训练的VLM(例如,GPT-4o)来解释自然语言描述的检查目标及相关图像,”Sun解释道。
“该模型基于语义对齐评估候选视点,我们进一步利用GPT-4o通过多视图图像推理相对空间关系(例如,目标的内部/外部)。然后通过使用混合整数规划解决旅行商问题(TSP)生成优化的3D检查轨迹,考虑语义相关性、空间顺序和位置约束。”
TSP是一个经典的优化问题,旨在识别连接地图上多个位置的最短路径,同时考虑环境的约束和特征。在解决这个问题后,他们的模型为执行检查的机器人优化平滑轨迹和捕捉兴趣点的最佳相机视点。
“我们新颖的基于VLM的无需训练的机器人检查规划方法有效地将自然语言查询转化为平滑、准确的3D检查规划轨迹,”Sun和他的导师Dr. Aniket Bera说。“我们的研究结果还表明,最先进的VLMs,如GPT-4o,在解释多视图图像时表现出强大的空间推理能力。”
Sun和他的同事在一系列测试中评估了他们提出的检查计划生成模型,他们要求其为检查各种现实环境创建计划,并向其提供这些环境的图像。他们的发现非常有希望,因为该模型成功地勾画出平滑的轨迹和完成所需检查的最佳相机视点,预测空间关系的准确率超过90%。
作为未来研究的一部分,研究人员计划进一步开发和测试他们的方法,以提高其在广泛环境和场景中的性能。然后可以使用真实的机器人系统评估该模型,并最终在现实世界中部署。
“我们的下一步包括将方法扩展到更复杂的3D场景,集成主动视觉反馈以实时优化计划,并将流程与机器人控制结合,以实现闭环物理检查部署,”Sun和Bera补充道。