DeepMind智能体在雷神之锤3的夺旗模式中击败人类玩家，胜率大大超过基线标准

2019年05月31日由董灵灵发表 320678 0

DeepMind智能体在雷神之锤3的夺旗模式中，击败了人类玩家，胜率达到1600，而优秀的人类玩家胜率为1300。

夺旗是孩子们在夏令营的空地上玩的游戏，同时也是专业电子游戏玩家热衷的热门游戏雷神之锤3（Quake III）和守望先锋（Overwatch）中的一部分。

不管在现实环境还是虚拟环境，这都是一项团队运动。每一方都守卫一面旗帜，同时还计划夺取另一边的旗帜并将其带回到本营。赢得比赛需要良好的团队合作，在防守和攻击之间协调平衡。

换句话说，夺旗看起来需要一套非常人性化的技能。但DeepMind的研究人员表明，机器也可以掌握这款游戏，至少在虚拟世界中也是如此。

夺旗训练

DeepMind发表在“Science”杂志上的一篇论文报告说，团队设计了自动智能体，在Quake III中玩夺旗时表现出类似人的行为。这些智能体能够与人类玩家合作，或与他们并肩作战，并相应地调整它们的行为。

DeepMind的研究员Wojciech Czarnecki表示，“智能体可以适应具有任意技能的队友。”

通过数千小时的游戏，智能体学会了非常特殊的技能，比如在队友即将夺取旗帜的情况下它会冲向对手的营地。正如人类玩家所知，当对方的旗帜被带到自己的基地时，新的旗帜就会出现在对方的基地，等待被夺取。

DeepMind的项目旨在打造能够玩极其复杂的三维视频游戏的人工智能，包括雷神之锤3、Dota 2和星际争霸2。许多研究人员认为，虚拟领域的成功最终将使自动化系统在现实世界中具有更高的能力。

例如，这些技能可以应用到仓库机器人，因为它们要分组工作，将货物从一个地方移动到另一个地方，或者帮助自动驾驶汽车在大量交通中集中导航。

从事类似研究的OpenAI的研究员Greg Brockman指出，“游戏一直是人工智能的基准，如果你无法攻克游戏，你就不能指望去解决其他问题。”

直到最近，在像Quake III这样的游戏中构建一个可以与人类玩家较量的系统似乎不可能。但是在过去的几年里，DeepMind，OpenAI和其他实验室取得了重大进展，这要归功于一种强化学习技术，它允许机器通过极端的反复试验来学习任务。

通过一遍又一遍地玩游戏，自动化智能体可以了解哪些策略带来成功，哪些策略不成功。如果一名队员在队友即将夺旗的情况下通过向对手的主阵地移动而不断赢得更多积分，则会将这种策略添加到其计谋中。

智能体For The Win

名为For The Win（FTW）的智能体使用卷积神经网络直接从屏幕上的像素中学习，卷积神经网络是在视觉皮层之后建模的数学函数的集合。摄取的数据被传递到两个长期短期记忆（LSTM）网络或能够学习长期依赖性的网络。

一个是在快速时间尺度上，另一个是在慢速时间尺度上运行，它们通过变化的目标耦合，它们共同用于对游戏世界进行预测并通过模拟游戏控制器输出动作。

团队为FTW智能体提供了一系列队友和对手，并随机选择了阶段，以防止智能体记忆布局。每个智能体都学会了自己的奖励信号，使它们能够产生自己的内部目标。此外，他们利用双层流程来优化内部奖励，并加强在这些奖励上的学习，以制定最重要的策略。

第一人称视频游戏呈指数级复杂化，尤其是当涉及到队友之间的协调时。智能体通过玩大约45万轮游戏来学习夺旗，在数周的训练中积累了大约4年的游戏经验。起初，智能体惨遭失败。但他们逐渐了解了比赛的细微差别，比如何时跟踪队友，因为它们突袭了对手的主场。

那么最终结果如何呢？在一场涉及40名人类运动员的比赛中，人类和智能体在比赛中随机匹配（包括对手和队友），FTW智能体超越了基线方法的胜率。事实上，它们大大超过了人类玩家的赢率，其中Elo评级（相当于获胜的概率）为1600，而优秀的人类玩家为1300，平均人类玩家胜率为1050。

虽然结果看起来像是协作，但是智能体可以实现它，因为它们可以完全理解游戏中发生的事情。

研究员Max Jaderberg说，“如何定义团队合作并不是我想要解决的问题，但是一名智能体将坐在对手的大本营，等待旗帜出现，这只有在依靠队友时才有可能完成。”

像这样的游戏并不像现实世界那么复杂。“3D环境旨在使导航变得容易，Quake中的战略与协调很简单。”

强化学习非常适合这类游戏。在视频游戏中，很容易识别成功的标准，那就是更多的分数。在夺旗时，玩家根据夺旗数量获得积分。但在现实世界中，没有人记分，研究人员必须以其他方式定义成功标准。至少在简单的任务中这是可以完成的。

虽然机器现在可以赢得虚拟世界中的旗帜，但它们在夏令营的开放空间中仍然没有希望获胜，并且这种情况将持续相当长的一段时间。

标签：

行业 DeepMind

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OrbitalInsight：通过自动化的可扩展地理空间智能，为资产经理、企业和政府提供支持

下一篇 Rapidminer：你也可以成为AI专家

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术