谷歌研究人员通过让AI玩游戏来改善强化学习

2019年03月26日由 bie管我叫啥发表 422282 0

深度强化学习已被用于模拟社会规范的影响，创建非常擅长玩游戏的AI等，尽管强化学习功能如此多样，它有一个显而易见的缺点：效率低下。训练策略需要在模拟或现实环境中进行大量交互，这远远超过普通人学习任务所需的内容。

为了在视频游戏领域进行补救，谷歌研究人员最近提出了一种新的算法——模拟策略学习（Simulated Policy Learning），简称SimPLe，它使用游戏模型来学习选择动作的高质量策略。论文“Model-Based Reinforcement Learning for Atari”对这一算法进行了描述。

谷歌AI科学家ŁukaszKaiser和Dumitru Erhan表示，“在高层次上，SimPLe背后的想法是在模拟游戏环境中，学习游戏行为的世界模型和使用该模型优化策略（无模型强化学习）之间交替，这种算法背后的基本原理已经很好地建立，并已被用于许多基于模型的强化学习方法中。”

正如两位研究人员解释的那样，训练AI系统来玩游戏需要在给定一系列观察到的帧和命令（例如，“左”，“右”，“前进”，“后退”）的情况下预测目标游戏的下一帧。他们指出，一个成功的模型可以产生轨迹，这些轨迹可以用来训练游戏智能体策略，从而避免依赖昂贵的游戏内序列计算。

SimPLe就基于这个原理。它需要四帧作为输入来预测下一帧以及奖励，并且在得到充分训练之后，它会展示用于改进策略的动作，观察和结果的样本序列。Kaiser和Erhan指出，SimPLe仅使用中等长度的展示来最小化预测错误。

在持续相当于两小时游戏玩法（10万次互动）的实验中，使用SimPLe调整策略的智能体在两个测试游戏（Pong和Freeway）中获得了最高分，并产生了近乎完美的预测，最多可预测50步。

它们偶尔会努力捕捉游戏中小但高度相关的物体，从而导致失败，Kaiser和Erhan承认它还不符合标准强化学习方法的性能。但SimPLe在训练方面的效率提高了两倍，研究团队预计未来的工作将显着提高其绩效。

他们写道：“基于模型的强化学习方法的主要前景是，将其应用在交互成本高，速度慢或需要人工标记的环境中，例如多机器人任务。在这样的环境中，经过学习的模拟器可以更好地理解智能体的环境，并可以用新的，更好，更快的方式进行多任务强化学习。”

论文：

arxiv.org/abs/1903.00374

标签：

行业谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Zoox董事会任命Aicha Evans为CEO

下一篇亚马逊和国家科学基金会投入1000万美元用于AI公平性研究

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Sam Altman离职事件时间线