文章资料-情感.机器.认知-电子AI 游客
AlphaGo遥指通用AI:一个算法攻陷三大棋类游戏
【9307】by12018-12-07 2019-03-09 最后编辑2019-03-09 22:42:49 浏览703

AlphaGo遥指通用AI:一个算法攻陷三大棋类游戏,成为棋类游戏终结者

 李晓慧 环球科学 2018-12-07

图片来源:science


撰文 | 李晓慧


AlphaGo之父、Deepmind创始人兼CEO 哈萨比斯(Demis Hassabis)曾经提出一个远期目标:打造通用的人工智能,它将是一套灵活的自适应算法,能够从头自学掌握各种任务。在去年年底的NIPS大会上,哈萨比斯首次公开解读了AlphaZero:在AplhaGo Zero的基础上,AlphaZero又学会了国际象棋和日本将棋,分别击败了当时最好的国际象棋引擎Stockfish和日本将棋程序Shogi,以及此前创下佳绩的围棋程序AphaGo Zero,AlphaZero俨然成为了一个更通用的人工智能算法。


不过人们很好奇,为什么这样一个看似重大的突破,却这样草草的发布,不仅没有像此前一样首先发表于顶级科学期刊,也没有投会议论文,只是在预印本网站发布了论文。


有人称赞AlphaZero是又一次突破,但也有人对其科学有效性提出了质疑。比如,精通国际象棋的AI专家Jose Camacho Collados 撰文指出,AlphaZero的代码没有开源,从科学角度看,其方法无法被其它专家验证。


时隔一年,今天,AlphaZero的论文登上科学期刊Science的封面,用严格的同行评审证明了新算法取得的突破。


本周Science封面



更通用的游戏系统


从计算机时代的早期开始,游戏就被认为是人工智能研究的重要载体。游戏简化了现实世界中的问题,同时保留了足够的复杂性挑战人类与机器。


曾经,大多数棋类游戏的程序是人工设计的。利用先进的搜索方法、复杂的评估功能以及各种技巧,很多程序已经能够超越最优秀的人类玩家。


早在1997年,IBM的计算机“深蓝”击败了俄籍世界国际象棋冠军,近20年后,2015年10月,AlphaGo在难度超高的围棋比赛中,终于在无需让子的情况下,历史性地击败了围棋职业棋手,登上科学期刊Nature。此后,AlphaGo的发展进入快车道,2017年10月,AlphaGo的升级版AlphaGo Zero登上Nature,这是一个没有用到人类数据的版本,它通过与自己对战,超越了世界上最强的棋手与程序。


2017年12月,Alpha Zero发布,它使用与AlphaGo Zero类似的方法,但是更加通用,不仅自学了围棋,还学会了国际象棋和日本将棋,成为掌握了三种世界上最难棋类游戏的人工智能,彼时发布在网上预印本系统arXiv上。经过了严格的评审过程后,2018年12月7日的Science杂志作为封面内容报道了AlphaZero。


AlphaZero依然使用AlphaGo Zero的框架:深度强化学习加蒙特卡洛树搜索。利用5064个TPU的强大计算资源,在24小时内,自我对弈,总体击败了在单项领域中的最强程序。



在学习每个棋种的时候,系统在自我对弈的胜负中学习,以调整神经网络的参数,使其更可能在未来选择有利的动作。训练量大小取决于比赛的风格和复杂程度,对于AlphaZero来说,国际象棋的训练大约需要9小时,日本将棋的训练需要12天,围棋则需要13天。


在国际象棋比赛中,AlphaZero在4小时后第一次击败了国际象棋最强程序Stockfish;在日本将棋比赛中,2小时后击败了日本将棋的最强程序Elmo;在围棋比赛中,30小时后首次战胜了与李世石对战的AlphaGo v18。



针对AlphaZero这一成果,曾经参与构建了IBM“深蓝”系统的IBM研究院研究员Murray Campbell发表了评论文章,他指出,相比此前的AlphaGo和AlphaGo Zero,AlphaZero更加具有通用性,仅根据规则,通过自我对弈就能在较短的时间内,在多种棋类达到顶级水平。


同时,他认为AlphaZero算是棋类AI的终结者,未来研究人员需要挑战的是新一代游戏。



质疑与褒奖


在AlphaZero最早出现的时候,褒奖与质疑同时出现。有人质疑AlphaZero在与国际象棋和日本将棋的对战中,处于不公平的比赛环境。因为国际象棋程序Stockfish和日本将棋程序Elmo都无法利用AlphaZero设计使用的TPU硬件。


Deepmind对比赛环境进行了解释,在其今日发表的博客中,写道:每一个程序都在为其设计的硬件上运行,Stockfish和Elmo使用44个CPU,而AlphaZero和AlphaGo Zero使用了4个一代TPU和44个CPU。


棋手们对AlphaZero多有赞扬,前国际象棋世界冠军Garry Kasparov称:“飞机不会像鸟一样拍打翅膀,机器也不像人类一样下棋……这些自学成才的专家机器不仅仅有出色的表现,而且我们可以从它们所产生的知识中学到更多。”


AlphaZero能够同时精通三种棋类(图片来源:Science)


被认为是日本将棋最优秀棋士的Yoshiharu Habu认为:“AlphaZero的很多下法违背了人类眼中的将棋理论,比如它会将国王移到棋盘中心,这看上去会使AlphaZero处于危险的地位。但令人难以置信的是,它仍然能够掌控整个棋局,其独特的游戏风格让我们看到了新的可能性。”



终结棋类AI,阿尔法的下一步


就像Murray Campbell所说,AlphaZero似乎代表着棋类AI走到了尽头,游戏类AI的下一步需要挑战新的类型。他在文章中表示,国际象棋、日本将棋以及围棋都非常复杂,但同时它们相比其它种类的游戏更容易被计算机解决。例如,棋类游戏中只有两名棋手,具有确定性、静态、离散的特点,这些特点让蒙特卡罗树搜索有了用武之地。


多人视频游戏,如星际争霸、Dota2已经被提议作为下一个游戏挑战对象,它们部分可见、是不完全信息的博弈、具有非常大的搜索空间和大量的动作集。


不过哈萨比斯的目光绝不仅放在游戏这一领域,就在前几日,Alpha系列将眼光放在了科学研究领域,Deepmind的最新人工智能程序AlphaFold进入生命科学领域,首次参加了全球蛋白质结构预测竞赛,一出手就击败了其它所有对手,在98个参赛队伍中排名第一,在预测的43种蛋白质结构中,有25种最为准确。从游戏到解决科学问题,哈萨比斯认为,这对于Deepmind来说,是一个非常关键的时刻,这是其在人力和资源方面的第一个重大投资,也是非常重要的、现实世界的科学问题。


哈萨比斯曾经在接受《卫报》采访时说出了对未来的展望,他认为超级智能的机器将与人类专家合作解决任何问题,包括癌症、气候变化、能源、基因组学、宏观经济学、金融系统、物理学。他说:“我们需要掌握的许多系统都变得愈加复杂,信息超载使得最聪明的人也很难再一生中掌握它。”他认为未来通用人工智能将有所帮助,虽然也许这个时间还需要几十年。


原始论文:

http://science.sciencemag.org/content/362/6419/1140