3天自学成才　围棋新霸主诞生

（伦敦19日讯）人工智能系统AlphaGo今年5月击败中国围棋高手柯洁后，即宣布退役，但其开发公司DeepMind继续研发工作。DeepMind团队周三公布最强版AlphaGo，代号AlphaGo Zero，其独门秘籍就是“自学成才”。而且，是从一张白纸开始，零基础学习，在短短3天内，成为顶级高手。

据中国上海澎湃新闻网报导，团队称，AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时，AlphaGo Zero取得100:0的压倒性战绩。DeepMind团队将关于AlphaGo Zero的相关研究以论文的形式，刊登在科学杂志《自然》上。

AlphaGo之父、DeepMind联合创始人兼首席执行员哈萨比斯表示，AlphaGo Zero是最强版本，它提高计算效率，并且没有使用到任何人类围棋数据。AlphaGo此前的版本，都是结合数百万人类围棋专家的棋谱，以及强化学习的监督学习进行了自我训练。

经过几天的训练，AlphaGo Zero完成近500万盘的自我博弈后，已经可以超越人类，并击败此前所有版本的AlphaGo。

DeepMind团队在官方部落格上称，Zero用更新后的神经网络和搜索算法重组，随着训练加深，系统表现不断进步。自我博弈的成绩也越来越好，同时，神经网络也变得更准确。

自行创造知识

AlphaGo团队负责人席尔瓦指出，AlphaGo Zero使用新的强化学习方法，让自己变成老师。系统一开始甚至并不知道甚么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行自我对弈。随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。

更为厉害的是，随着训练的深入，DeepMind团队发现，AlphaGo Zero还独立发现游戏规则，并走出新策略，为围棋这项古老游戏带来新见解。

经过短短3天的自我训练，AlphaGo Zero打败此前战胜李世石的旧版AlphaGo，战绩是100:0的。经过40天的自我训练，AlphaGo Zero又打败AlphaGo Master版本。AlphaGo Zero的提升，让DeepMind看到利用人工智能技术改变人类命运的突破。他们目前正积极与英国医疗机构和电力能源部门合作，提高看病效率和能源效率。