AlphaZero称王！DeepMind AI制霸三大棋类游戏

2018年12月07日由浅浅发表 351045 0

在2017年，DeepMind推出了AlphaZero，自己学会掌握国际象棋，日本将棋和Go，击败了世界冠军。DeepMind很高兴看到国际象棋界成员的回应，他们在和AlphaZero对战中看到了一种突破性的，高度动态和非传统的游戏风格，与之前的任何国际象棋游戏程序都不同。

现在，DeepMind推出了AlphaZero的完整评估，该评估发表在Science上，它描述了AlphaZero如何快速学习每个游戏，成为历史上最强大的玩家，尽管它是从随机游戏开始训练，没有内置该领域知识，只知道游戏的基本规则。

前世界国际象棋冠军Garry Kasparov：我无法掩饰自己的满足感，它的风格变化非常灵活，和我很像！

正是这种重新学习每个游戏，不受人类游戏规范的约束的能力，产生了独特的，非传统的，具有创造性和动态的游戏风格。国际象棋大师Matthew Sadler和女性国际大师Natasha Regan在即将出版的书籍《Game Changer》（将于2019年1月出版）中，分析了数以千计的AlphaZero对战，指出它的风格不同于任何传统的国际象棋引擎。Matthew表示，“这就好像发现了过去一些高手的秘籍。”

传统的国际象棋引擎，包括世界计算机国际象棋冠军Stockfish和IBM突破性的Deep Blue，依赖于数千个由强大的人类玩家制定的规则和启发式方法，试图解释游戏中的每一个可能性。日本将棋程序也是特定的，使用与国际象棋程序类似的搜索引擎和算法。

AlphaZero则采用了一种完全不同的方法，用深度神经网络和通用算法取代了这些人类制定的规则，这些算法除了基本规则之外一无所知。

AlphaZero称王！DeepMind AI制霸三大棋类游戏

在国际象棋中，AlphaZero仅用了4个小时便首次超越了Stockfish，在日本将棋中，AlphaZero在2小时后首次超越Elmo；在Go中，AlphaZero首次超越了击败李世石的AlphaGo的版本，注意：每个训练步骤代表4096个棋盘位置。

为了学习这些游戏，一个未经训练的神经网络通过强化学习的试错过程，与自己进行数百万次对抗。起初，它完全随机，但随着时间的推移，系统从胜，败，平局中学习，以调整神经网络的参数，使其在未来选择更有利的策略。网络需要的训练量取决于游戏的风格和复杂程度，国际象棋大约需要9个小时，日本将棋大约需要12个小时，Go需要13天。

史上唯一一位获得了日本将棋全部七个头衔的羽生善治：它的一些举动，例如将国王转移到棋盘的中心，这违反了将棋理论，并且从人的角度来看，这似乎会使AlphaZero处于危险的位置。但令人难以置信的是，它仍然掌控着棋局。其独特的风格向我们展示了新的可能性。

训练有素的网络用于指导搜索算法，即蒙特卡罗树搜索（MCTS），以选择游戏中最有希望的走法。对于每次移动，AlphaZero仅搜索传统国际象棋引擎所考虑的一小部分走法。例如，在国际象棋中，它每秒仅搜索6万个走法，相比之下，Stockfish每秒大约搜索6千万个走法。

经过全面训练的系统将与人工引擎进行测试，针对国际象棋（Stockfish）和日本象棋（Elmo），以及我们之前自学成才的系统、目前最强的Go玩家AlphaGo Zero。

每个程序都在其设计的硬件上运行。Stockfish和Elmo使用44个CPU核心（与TCEC世界锦标赛相同），而AlphaZero和AlphaGo Zero使用配备4个第一代TPU和44个CPU核心的机器。第一代TPU的推理速度与NVIDIA Titan V GPU等商用硬件大致相似，尽管架构不具有直接可比性。

所有比赛控制了时长，每场比赛限时3小时，每一步限时15秒。

在每次评估中，AlphaZero都击败了对手：

在国际象棋中，AlphaZero击败了2016 TCEC（第9季）世界冠军Stockfish，在1000场比赛中赢得了155场，仅输掉了6场比赛。为了验证AlphaZero的鲁棒性，团队还开展了一系列人类常见的开局开始的测试。在每个开局中，AlphaZero都击败了Stockfish。团队也用到了从2016年TCEC世界冠军使用的开局，和一系列对Stockfish的最新开发版本，并使用很强的Stockfish变体开始比赛。在所有比赛中，AlphaZero都获胜了。

在将棋中，AlphaZero击败了2017年CSA世界冠军版Elmo，在91.2％的比赛中获胜。

在Go中，AlphaZero击败了AlphaGo Zero，在61％的比赛中获胜。

然而，正是AlphaZero的风格让玩家着迷。例如，在国际象棋中，AlphaZero在其自我训练中独立发现并展开了人类常见的策略，如openings，king safety和pawn structure。但是，由于自学并不受传统观念的影响，它还发展了自己的直觉和策略，增加了一系列令人兴奋的新颖想法，扩展了几个世纪以来对国际象棋战略的思考。

前世界国际象棋冠军Garry Kasparov：一个多世纪以来，国际象棋一直被用作人类和机器认知的罗塞塔石碑。AlphaZero通过这些非凡的事情，更新了古老的棋盘游戏和尖端科学之间的显著联系。

Matthew Sadler表示，玩家将注意到的第一件事就是AlphaZero的风格，它带着目的和力量围绕着对手的王者的方式。这种风格支撑着AlphaZero的动态灵活，最大限度地提高了自身的活动性和移动性，同时最大限度地减少了对手的活动和移动性。与直觉相反，AlphaZero似乎对“材料”的重视程度较低，这一想法是现代游戏的基础，每一件作品都具有价值，如果一个玩家在棋盘上的棋子价值高于另一个，那么他们就具有物质优势。相反，AlphaZero愿意在游戏早期牺牲材料，以获得长期收益。

令人印象深刻的是，它设法将其戏剧风格附加到各种各样的位置和开场中，从一开始它就以非常人性化目的，以非常谨慎的方式发挥作用。传统程序很强，几乎不会出现明显错误，但在面对没有具体和可计算解决方案的位置时会出现问题，而正是在这样的位置，AlphaZero能实现感觉，洞察或直觉。

这种独特的能力，在其他传统的国际象棋引擎中是没有的，已经被用来为国际象棋迷们提供有关Magnus Carlsen和Fabiano Caruana最近世界国际象棋锦标赛比赛的新见解和评论，并将在《Game Changer》中进一步探讨。“看看AlphaZero的分析与顶级国际象棋引擎甚至顶级大师级游戏的分析有何不同，这真是令人着迷，AlphaZero可以成为整个社区的强大教学工具。”

AlphaZero的教学能力与我们在2016年AlphaGo对战冠军李世石时所看到的相呼应。在比赛期间，AlphaGo发挥了许多极具创造性的策略，包括在第二场比赛中第37手，推翻了数百年的定势。这些招数已经被包括Lee Sedol本人在内的所有级别的玩家研究过，他们评论道：“我认为AlphaGo是基于概率计算的，它只是一台机器。但当我看到这一手时，我改变了主意。AlphaGo的确很有创意。”

Garry Kasparov：其影响远远超出了我心爱的棋盘，这些自学的专家机器不仅表现得非常优秀，我们实际上也可以从他们所产生的新知识中学习。

和Go一样，我们对AlphaZero对国际象棋的创造性反应感到兴奋，自从计算机时代开始以来，AI面临着巨大的挑战，包括Babbage，Turing，Shannon和von Neumann在内的早期开拓者都试图设计国际象棋程序。但AlphaZero不仅仅影响了国际象棋，棋牌或围棋。为了创建能够解决各种现实问题的智能系统，它们需要灵活并适应新情况。虽然在实现这一目标方面取得了一些进展，但它仍然是AI研究中的一项重大挑战，其系统能够以非常高的标准掌握特定技能，但在略微修改的任务中往往会失败。

AlphaZero能够掌握三种不同的复杂游戏，并可能完成所有完美信息游戏，这是克服这一问题的重要一步。它表明单个算法可以学习如何在一系列设置中发现新知识。尽管它还处于早期阶段，AlphaZero的创意见解加上在AlphaFold等其他项目中看到的令人鼓舞的结果，团队对创建通用学习系统的使命充满信心，这有助于找到一些新的方案，以解决最重要和最复杂的科学问题。

论文：science.sciencemag.org/content/362/6419/1140

下载论文的Open Access版本：deepmind.com/documents/260/alphazero_preprint.pdf

阅读 Garry Kasparov 随附的科学社论：science.sciencemag.org/content/362/6419/1087

阅读 Deep Blue联合创始人Murray Campbell 撰写的文章：science.sciencemag.org/content/362/6419/1118

下载前20名AlphaZero游戏：deepmind.com/documents/259/alphazero_stockfish_top20.zip

下载210个AlphaZero国际象棋游戏和100个将棋游戏：deepmind.com/research/alphago/alphazero-resources/

下载随附的图稿：deepmind.com/documents/245/alphazero_images.zip

了解有关AlphaZero书籍《Game Changer》的更多信息：www.newinchess.com/game-changer

标签：

行业 DeepMind AlphaZero

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Waymo推出首个公共自动驾驶出租车服务，现可供测试客户使用

下一篇谷歌翻译区分性别，进一步减少AI偏见

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体