作为AlphaGo的最新迭代,DeepMind在11月6日发表的论文《科学》 (Science)中介绍了AlphaZero。作为谷歌母公司Alphabet的英国人工智能子公司,DeepMind多年来一直致力于改善Go AI。2017年,前AI冠军AlphaGo正式退役,但经过进一步的修复,AlphaZero达到了新的巅峰。
AlphaZero是一个新的人工智能平台,可以从零开始学习国际象棋和国际象棋。在三场国际象棋比赛中,AlphaZero放弃了所有三个AI。
Stockfish:国际象棋AI世界冠军;
Elmo:2017年世界计算机国际象棋锦标赛冠军;
AlphaGo Zero:DeepMind自己的围棋AI号称史上最强棋手。
在只知道游戏基本规则的情况下,AlphaZero在成为人工智能大师之前,会练习几百万个自己模型的游戏。
一开始,人工智能会实施随机策略来获胜,但后来,它会通过“强化学习”来尝试和犯错误,以逐渐了解哪些策略是最有效的。
测量国际象棋需要9个小时,下棋需要12个小时,围棋需要13天,涉及5000个张量处理单位(TPU)。
作为参考,一套TPU每天可以在Google相册中处理超过1亿张照片,所以AlphaZero对硬件处理性能的要求还是比较高的。
闭门学习之后,AlphaZero可以秒杀四方。
这项研究的独特之处在于,研究团队将机器学习算法与蒙特卡罗树(MCTS)的“搜索方法”结合起来。
这是围棋人工智能决定下一步棋的方法。这一次,DeepMind团队也将相同的机制应用于象棋和象棋AI,首次证明了这种方法适用于其他复杂的游戏测试。
对于人类棋手来说,AlphaZero很有吸引力。在对抗机器的时候可以看到以前没有遇到过的策略和一些新奇的想法。
它咄咄逼人的风格和高度动态的应对策略足以让马修萨德勒这样的国际象棋大师感到惊讶(这在DeepMind博客上有所表达)。
这项研究的细节已经发表在最近出版的期刊《科学》(科学)上。原标题:《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》 《一种通用的强化学习算法,可自学成为国际象棋、将棋、围棋大师》。