MIT与IBM开发新的集体学习策略，加快智能体学习速度

2019年02月02日由浅浅发表 455272 0

第一个打败世界上最优秀棋手的AI，至少得到了人类的一些指导，而它们无法与完全靠自己、通过反复试验和错误学习的新一代AI匹敌。

深度学习和强化学习算法的结合，使得计算机在诸如国际象棋和围棋，包括Ms. Pac-Man在内的越来越多的视频游戏以及扑克等纸牌游戏中占据主导地位。

尽管取得了这么多进展，但随着游戏与现实生活越来越接近，电脑仍会陷入困境，而游戏中隐藏着信息、多名玩家组合、持续不断的游戏以及短期和长期奖励，这一切都让计算变得极其复杂。

为了克服这些障碍，AI研究人员正在探索辅助技术，以帮助机器人智能体学习，不仅模仿人类自身，而且从周围的人，报纸，书籍和其他媒体获取新信息。

由MIT-IBM Watson AI Lab开发的集体学习策略提供了一个有前途的新方向。研究人员表明，当智能体学会利用彼此不断增长的知识体系时，一对智能体可以将学习简单导航任务所需的时间缩短50％，甚至更多。

该算法教会智能体何时寻求帮助，以及如何根据此前学到的内容调整自己的建议。该算法的独特之处在于，两种智能体都不是专家，每个人都可以自由地作为学生或教师来请求和提供更多信息。研究人员将于本周在夏威夷AAAI人工智能会议上展示该成果。

加拿大皇家银行研究部门Borealis AI的研究主管Matthew E. Taylor认为，“用提供行动来改善学生的学习，而不仅仅是告诉学生该做什么，这可能非常强大。虽然论文中的描述侧重于相对简单的场景，但我相信学生-教师框架可以在Dota 2，机器人足球或灾难救援中发挥作用。”

目前，职业玩家仍然在Dota2以及其他支持团队合作和快速战略思考的游戏方面具有优势（虽然DeepMind最近在实时战略游戏“星际争霸”中击败了职业玩家），但随着机器对动态环境的操控能力的提高，它们可能很快就能完成现实世界中的任务，比如管理大城市的交通，或协调地面和空中的搜救队伍。

机器缺乏常识性知识，它们需要观看数百万个视频帧，并花费大量的计算时间，学会很好地玩游戏。即便如此，它们缺乏有效的方式将它们的知识转移到团队中，或将它们的技能迁移到新游戏。如果可以训练机器人向他人学习，并将他们的学习推广到其他任务，我们就可以开始更好地协调彼此之间以及与人类的互动。

团队的关键洞见是，在这种情况下，一个团队通过各个击破的方法来学习一项新任务会学得更快，比如在一个房间的两端进行操作，同时触碰墙壁。

他们的教算法在两个阶段之间交替：首先，学生和老师在每一步都要基于他们对下一步的信心，或者他们即将给出的建议，来决定是要求还是给出建议，这会让他们离目标更近。因此，学生只会寻求建议，老师只会在增加的信息有可能提高他们的表现时才给出建议。在每一步中，智能体都更新各自的任务策略，流程将继续，直到达到目标或超时为止。

通过每次迭代，算法记录学生的决定，教师的建议以及通过游戏的最终得分衡量的学习进度。在第二阶段，深度强化学习技术使用先前记录的教学数据来更新建议策略。每次更新都会让教师更好地在合适的时间提供正确的建议。

在 AAAI研讨会上讨论的后续论文中，研究人员改进了算法跟踪智能体学习基本任务的能力的能力，他们用的是一个推箱子的任务提高智能体给出和接受建议的能力。这使该团队朝着进入机器人世界杯RoboCup的长期目标又迈进了一步，即AI学术研究人员发起的年度机器人竞赛。

IBM研究人员Tesauro表示，“在我们进行足球比赛之前，我们需要扩展到11名智能体，这将需要更多的工作，但我们充满希望。”

标签：

机器人 IBM MIT麻省理工学院

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 MIT开发新算法，衡量探索未知区域的风险和回报

下一篇 AI公司为何开始争相推出AI语音芯片？

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术