AlphaZero诞生一周年登上Science封面，完整论文首次公开-情感.机器.认知-电子AI

AlphaZero诞生一周年登上Science封面，完整论文首次公开

【94171】by12018-12-07 2019-03-09 最后编辑2019-03-09 23:57:38 浏览934

原创：文摘菌大数据文摘 2018-12-07

大数据文摘出品

作者：魏子敏、蒋宝尚

阿尔法元（AlphaZero）诞生一周年之际，《科学（Science）》杂志今天以封面文发布了阿尔法元（AlphaZero）经过同行审议的完整论文，Deepmind创始人兼CEO哈萨比斯亲自执笔了这一论文。

具体来说，DeepMind公开了完整评估后的AlphaZero，不仅回顾、验证了之前的结果，还补充了新的提升：除了围棋，AlphaZero自学了另外两种复杂棋类游戏——国际象棋和日本将棋。

论文题目为《A general reinforcement learning algorithm that masters chess, shogi and Go through self-play》，一共32页，从细节到参考文献算法，都做了详细介绍。

论文链接：

http://science.sciencemag.org/content/362/6419/1140

《Science》杂志评价称，能够解决多个复杂问题的单一算法，是创建通用机器学习系统，解决实际问题的重要一步。

去年的12月7日，DeepMind的研究组宣布已经开发出一个更为广泛的阿尔法元（AlphaZero）系统，可以训练自己在棋盘，将棋和其他规则化游戏中实现“超人”技能，所有这些都在一天之内完成，并且无需其他干预，战绩斐然：

当时，还没有经过同行评议的这篇论文首发在arxiv上，引发了人工智能界的重大探讨。

https://arxiv.org/pdf/1712.01815.pdf

时隔一年，Science杂志以封面发布了经过了同行评议、AlphaZero的最新进展和完整评估。同日，Deepmind也发布了一篇博文宣布这一消息：

今天我们很高兴地发布了AlphaZero的完整评估，该评估发表在Science （开放访问版本）杂志上，该期刊确认并更新了这些初步结果。论文中描述了AlphaZero如何从了解规则开始训练，并快速学习每个游戏成为高级玩家。

博文中，Deepmind还请来了几位AlphaZero的人类对手，比如，20年前，在“人机大战”中被深蓝打败的前世界国际象棋冠军加里卡斯帕罗夫，描述了AlphaZero的棋术。

“我无法掩饰自己的满足感，它非常有活力，就像我自己一样！“

20年前与深蓝对弈的加里卡斯帕罗夫