手把手AlphaGo有啥了不起,我也能教

北京白癜风哪个医院治白癜风好 https://jbk.39.net/yiyuanfengcai/yyjs_bjzkbdfyy/

大数据文摘作品

编译:叶一、Chlo、彭湘伟、钱天培

在年3月,Dpmind研发的AlphaGo以4:1的成绩,击败了曾荣获18次世界冠军的围棋选手,李世石(LSdol)。超过2亿观众见证了这一历史时刻。一台机器已经学会了一种超越人类的围棋策略。这在以前被认为是一项不可能完成的任务,或者至少需要十年之功。

AlphaGo与李世石的第3场比赛

这已是一项了不起的成就。然而,在年10月18日,DpMind又再次取得了突破。

论文《无需人类知识就能称霸围棋》(MastringthGamofGowithoutHumanKnowldg),揭示了一种新的算法——AlphaGoZro,它以:0的惊人成绩打败了AlphaGo。更令人难以置信的是,它从零开始,通过自我博弈,逐渐学会了能打败自己之前的策略。至此,开发一个超级AI不再需要依赖人类专家的游戏数据库了。

仅48天后的年12月5日,DpMind又发布了另一篇论文《通过一种通用的强化学习算法称霸国际象棋和日本象棋》(MastringChssandShogibySlf-PlaywithaGnralRinforcmntLarningAlgorithm),它展示了AlphaGoZro如何能够学会国际象棋(StockFish和Elmo)和象棋。整个学习过程,从第一次参与游戏到成为世界上最厉害的计算机程序,只用了24小时。

就这样,AlphaZro华丽丽地诞生了——它无需储备任何人类棋谱,就可以以通用算法完成快速自我升级。

关于这个成就,有两点最让人称奇:

AlphaZro对人类游戏经验根本就不需要

这点的重要性怎么说都不过分。也就是说,对于任何有充分信息的游戏(对阵双方对游戏状态都全程掌握),AlphaGoZro的方法论都可以得到完美应用!因为除了游戏规则之外,人类任何游戏经验值都是不需要的。

AlphaGoZro的基础方法可以应用于任何具有完美信息的游戏(游戏状态在任何时候,双方玩家都完全知道的),因为在游戏规则之外,不需要事先的专家知识。

这就是DpMind能在发表AlphaGoZro论文48天后,马上就能发表第二篇论文。毫不夸张地说,所需要改变的仅仅是新游戏规则,及与神经网络和蒙特卡罗树搜索相关的超参数。

这个算法的优雅程度秒杀众生

即便AlphaZro使用的是世界上只有极少数人能够看懂的超复杂算法,它仍然是项了不起的成就。同它相比,之前的算法可谓不复杂不成活,这才是它真正的魅力。究其核心,无非是以下极简而美的学习逻辑:

脑补各种场景,挑能赢的路走,想想别人会怎么应对,并不断探索未知。

在思考未来可能的情景时,优先考虑有前途的路径,同时考虑其他人最有可能如何对你的行动作出反应,并继续探索未知。

遇到不熟悉的状况,评估它的利害程度,把它同之前的各种让你走到今天这一步的场景作比较。

穷尽你对未来的想象,用你试过最多的招数来应对。

在你考虑了未来的可能性之后,采取你已经探索过的行动。

游戏结束时,回头看看在哪里犯过错,然后洗心革面、更新认知。

在游戏结束时,回过头来评估你在哪里错误地判断了未来的位置,并相应地更新你的理解。

这听起来是不是很像你学玩游戏的方式?当做错一个动作时,要么是因为你误判了这个动作会带来的结果,要么是你误判了对手可能会采取的行动。这两点正是AlphaZro学会如何玩游戏的法门。

如何构建自己的AlphaZro

首先,我们需要学习和理解AlphaGoZro的原理。我之前写过一篇AlphaGoZro的知识点速查手册可供参考:




转载请注明:http://www.aierlanlan.com/rzdk/229.html

  • 上一篇文章:
  •   
  • 下一篇文章: