大数据文摘出品
作者:魏子敏、蒋宝尚
阿尔法元(AlphaZero)诞生一周年之际,《科学(Science)》杂志今天以封面文发布了阿尔法元(AlphaZero)经过同行审议的完整论文,Deepmind创始人兼CEO哈萨比斯亲自执笔了这一论文。
具体来说,DeepMind公开了完整评估后的AlphaZero,不仅回顾、验证了之前的结果,还补充了新的提升:除了围棋,AlphaZero自学了另外两种复杂棋类游戏——国际象棋和日本将棋。
论文题目为《A general reinforcement learning algorithm that masters chess, shogi and Go through self-play》,一共32页,从细节到参考文献算法,都做了详细介绍。
论文链接:
http://science.sciencemag.org/content/362/6419/1140
《Science》杂志评价称,能够解决多个复杂问题的单一算法,是创建通用机器学习系统,解决实际问题的重要一步。
去年的12月7日,DeepMind的研究组宣布已经开发出一个更为广泛的阿尔法元(AlphaZero)系统,可以训练自己在棋盘,将棋和其他规则化游戏中实现“超人”技能,所有这些都在一天之内完成,并且无需其他干预,战绩斐然:
4个小时成为了世界级的国际象棋冠军;
2个小时在将棋上达到世界级水平;
8个小时战胜DeepMind引以为傲的围棋选手AlphaGo Zero。
当时,还没有经过同行评议的这篇论文首发在arxiv上,引发了人工智能界的重大探讨。
https://arxiv.org/pdf/1712.01815.pdf
时隔一年,Science杂志以封面发布了经过了同行评议、AlphaZero的最新进展和完整评估。同日,Deepmind也发布了一篇博文宣布这一消息:
今天我们很高兴地发布了AlphaZero的完整评估,该评估发表在Science (开放访问版本)杂志上,该期刊确认并更新了这些初步结果。论文中描述了AlphaZero如何从了解规则开始训练,并快速学习每个游戏成为高级玩家。
博文中,Deepmind还请来了几位AlphaZero的人类对手,比如,20年前,在“人机大战”中被深蓝打败的前世界国际象棋冠军加里卡斯帕罗夫,描述了AlphaZero的棋术。
“我无法掩饰自己的满足感,它非常有活力,就像我自己一样!“
20年前与深蓝对弈的加里卡斯帕罗夫