人工智能帮助家庭机器人将计划时间缩短一半

2023年07月18日由 Samoyed 发表 761695 0

你的全新家用机器人被送到你家，你让它给你冲杯咖啡。虽然它从之前的模拟厨房实践中掌握了一些基本技能，但它可进行的动作太多了——打开水龙头、冲马桶、倒面粉，等等。但是，对于这个任务来说，只有一小部分动作是有用的。在新的环境中，机器人该如何判断哪些步骤是有用的呢？

它可以使用PIGINet，这是一个可以有效增强家庭机器人的问题解决能力的新系统。麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员正在利用机器学习来减少做出计划所需的时间。当仅训练300-500个问题时，PIGINet可以消除无法满足无碰撞要求的任务计划，将计划时间缩短了50%-80%。

通常，机器人会尝试各种任务计划，并不断进行改进，直到找到可行的解决方案。这可能是低效和耗时的。例如，在烹饪之后，您可能想将所有酱料放在橱柜里。这个问题可能需要两到八个步骤，这取决于当时的环境是什么样子的。机器人需要打开多个橱柜门吗？橱柜里是否需要重新摆放物品以便腾出空间？

家庭机器人通常是按照预定义的配方执行任务，但这并不总适用于多样化或不断变化的环境。那么，PIGINet如何避免那些预定义的规则呢？PIGINet是一个神经网络，它接收“Plans、Images、Goal和Initial facts”，然后预测一个任务计划是否有可能通过改进来找到可行的运动计划。

简单来说，它采用了转换编码器，这是一个多功能的、先进的模型，专为处理数据序列而设计。在这种情况下，输入序列是有关正在考虑的任务计划、环境图像以及初始状态和期望目标的符号编码的信息。编码器将任务计划、图像和文本结合起来，生成有关所选任务计划可行性的预测。

以厨房为例，团队创建了数百个模拟环境，每个环境具有不同的布局和在柜台、冰箱、橱柜、水槽和锅之间重新排列物体的特定任务。通过测量解决问题所需的时间，他们将PIGINet与之前的方法进行了比较。一个正确的任务计划可能包括打开左侧的冰箱门、取下锅盖、将卷心菜从锅里移到冰箱、将土豆移到冰箱、从水槽里拿起瓶子、将瓶子放入水槽、拿起番茄或放下番茄。PIGINet在简单情景中将规划时间缩短了80%，在更复杂的情景中降低了20%至50%的规划时间。

麻省理工学院教授和CSAIL首席研究员Leslie Pack Kaelbling说：“像PIGINet这样的系统，可以利用数据驱动方法的力量来有效地处理熟悉的案例，也仍然可以依靠‘第一原则’规划方法来验证基于学习的建议和解决新问题，为各种问题提供可靠高效的通用解决方案，融合了两者的优点。”

PIGINet在输入序列中使用多模态嵌入，可以更好地表示和理解复杂的几何关系。利用图像数据帮助模型在不知道物体三维网格的情况下，掌握物体的空间排列和结构，进行精确的碰撞检查，从而在不同环境下快速决策。

在开发PIGINet过程中面临的主要挑战之一是缺乏良好的训练数据，因为所有可行和不可行的计划都需要由传统规划器生成，而这本身就很慢。然而，通过使用预训练的视觉语言模型和数据增强技巧，团队解决了这个挑战，不仅在处理已知物体的问题上显示出惊人的结果，还可以对以前未见过的对象进行零样本泛化。

“因为每个人的家都不一样，机器人应该具有强大的适应性，而不仅仅是按照固定流程执行任务。我们的主要目标是让通用任务规划器生成候选任务计划，并使用深度学习模型选择最合理的任务计划。此外，PIGINet的实际应用并不局限于家庭，”麻省理工学院CSAIL博士生、该研究的主要作者Zhutian Yang说。

“我们未来的目标是进一步完善PIGINet，在确定不可行的行动后提出替代任务计划，这将进一步加快可行任务计划的生成，而不需要大数据集从头开始训练通用规划器。我们相信，这将彻底改变机器人在开发过程中的训练方式，然后将其应用到每个人的家中。”

Beomjoon Kim博士说:“这篇论文解决了实现通用机器人的基本问题：如何从过去的经验中学习，在充满大量可移动和可配置障碍的无结构环境中加快决策过程。这类问题的核心瓶颈在于如何确定高层任务计划，以便存在一个实现高层计划的低层运动计划。通常情况下，你必须在运动规划和任务规划之间循环，这会导致计算效率低下。Zhutian的工作通过使用学习来消除不可行的任务计划，朝着一个可行的方向迈出了一步。”

来源：https://techxplore.com/news/2023-07-ai-household-robots.html

标签：

机器人机器人机器学习人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇联合国理事会为人工智能的使用制定伦理准则

下一篇新研究显示，具有人类意识的人工智能有助于加速科学发现

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术