伸向人类的“上帝之手”，AlphaGo原理大揭秘-搜狐

　　相信很多人都知道上图：

　　米开朗基罗壁画《创世纪》中最著名的一部分

　　上帝将手指伸向亚当

　　如今，人工智能的快速发展，

　　让很多人对这幅画又有了新的理解：

　　是上帝创造了人类，还是人类创造了上帝？

　　说到人工智能，不得不提到近来霸屏的

　　AlphaGo

　　频频占据权威媒体的头条，

　　也再次惊动了CCTV的新闻联播

　　岁末年初短短七天，

　　一个名叫 “Master”的神秘棋手

　　在网上取得了对中日韩顶级高手的60连胜，

　　其中包括世界冠军

　　柯洁、古力、朴廷桓、井山裕太……

　　这个“Master”最终被证实为AlphaGo升级版

　　棋圣聂卫平落败后不禁感叹：

　　“阿法狗也好，Master也罢，

　　都是‘围棋上帝’派来给人类引路的”。

　　被称为“手谈”的古老智力运动——围棋，因为变化太多，计算复杂，成为了人类智力活动最后的堡垒。如今，这最后的堡垒终于被机器攻破，引起了社会和科技界的巨大的轰动和对未来的思考。

　　简单回顾一下“阿尔法狗”的发展历程

　　2016年1月28日，《Nature》的封面论文介绍了谷歌公司旗下的DeepMind团队开发的“阿尔法狗”（AlphaGo）的原理；同时公开宣布AlphaGo以5:0完胜欧洲围棋冠军樊麾。

　　但是，当日围棋界该程序比赛结果纷纷表示不屑。因为围棋在欧洲是小众项目，欧洲的围棋冠军仅仅是中日韩职业四段左右的水平。

　　然而，两个月后，在2016年3月著名的人机大战中，AlphaGo以4:1战胜围棋世界冠军李世石，让人们经历了对人工智能从不屑到惊叹的巨大转变。

　　上图中，李世石在第4局（2016年3月13日）第78手弈出传说中的“神之一手”，扭转了局势，成为唯一战胜阿尔法狗的一局。当时便有人感叹：但愿这不是人类最后一次战胜机器。

　　不过，中国围棋选手柯洁，职业九段

　　19岁时已经拿过四个围棋世界冠军

　　保持着世界大赛14连胜

　　中国围棋甲级联赛18连胜的记录

　　被誉为当今世界围棋第一人，

　　当时在其微博放出豪言：

　　阿尔法狗能战胜李世石，但战胜不了我

　　阿尔法狗在闭关修炼10个月后，以Master的身份

　　用60连胜将人类高手一一挑落马下

　　与“Master”对战后

　　一向年少轻狂的柯洁却说出了这样的话：

　　与Master的对战刷新了我的认知

　　人类一直遵循的围棋定势全是错的！

　　我们人类甚至没有沾到过围棋真理的边

　　AlphaGo用实战证明，

　　所谓靠“棋感”、“味道”判断进行的对局

　　并不属于人类大脑的“专利”。

　　事实上，AlphaGo的原理在《Nature》发表之前已经公开：那就是通过专利的形式。谷歌申请的WO2015/054264A1（中文同族为CN105637540A）的最早优先权日为2013年5月12日，国际公开日为2015年4月16日，都早于论文在《Nature》的发表时间。

　　透过专利WO2015/054264A1我们来解密阿尔法狗的深度强化学习方法原理：其核心在于搭建了两个深度神经网络，将经验数据输入第二神经网络并进行训练，并根据第二神经网络生成或更新第一神经网络，第一神经网络又生成目标动作值(action-value)参数，而第二神经网络基于第一神经网络生成的目标而被更新。

　　简单的说：其算法就是通过历史的棋谱模拟下棋，模拟下的棋局又成为历史棋谱进行学习，然后不断的自我学习迭代提高。

　　什么深度神经网络？目标动作值？还是结合《Nature》的AlphaGo文章进行理解。

　　对应上述专利中提及的两个神经网络，AlphaGo团队设计了策略网络（policy network）和价值网络（value network），这两个网络分别是由13层和15层的卷积神经网络所构成，以棋盘图片作为输入，每层网络中应用多级的过滤器以获得每种走法的概率分布或获胜预测值，策略网络负责筛选可能性较大的走子方案，价值网络负责评估盘面获胜的可能性。综合两个网络得到目标动作值，如果其低于一个阈值，则AlphaGo认输，否则通过蒙特卡洛搜索树将以上二者结合，选择访问计数(visit count)最大值的落点作为下一步行棋点。

　　策略网络能够学习围棋高手的对局，学习他们是如何选择下一步的，其还能通过类似于周伯通“双手博弈”的方式，自我海量对弈强化学习，不断优化修正习得的人类棋法

　　（在与李世石对局前AlphaGo便学习了基于16万职业棋手对局数据库而掌握了近3000万步大师步法秘笈，还进行了3000万局的自我对弈）

　　当然，更大的网络能够获得更好的训练准确度，但在搜索过程中评估会更慢，在用时更短的非正式对局中，樊麾便赢过AlphaGo两局，此番快棋战中，Master能取得60连胜，说明DeepMind团队可能在策略网络算法优化上取得了新的进步。

　　价值网络是个和策略网络结构相似的多层神经网络，但输出单一的获胜预测值而不是概率分布，判断谁占优。这也是AlphaGo高于人类的地方，价值判断是人类思考中是很难量化的，棋手只能代之以“厚势”、“两分”等可意会不可言传的模糊判断，这也是很多棋手希望AlphaGo能公布的后台数据。

　　（例如胡耀宇九段在微博中这样说：）

　　当然，人工智能的含义远不止是挑战人类智力，它还包括机器人、语音识别、图像识别、自然语言处理和专家系统等。谷歌之所以收购DeepMind，就是看中了其在反向图片搜索（reverse image search）领域的两项专利技术（US2014/0019431A1和US2014/0019484A1）。

　　国际上，人工智能的创新和创业也日趋活跃，Facebook、IBM、Microsoft等世界科技巨头也纷纷在人工智能领域加强技术创新和专利布局。

　　在我国，人工智能也得到政策层面的高度支持，2015年7月国务院发布《关于积极推进“互联网+”行动的指导意见》，将人工智能作为重点布局的11个领域之一，2016年四部委联合印发了《“互联网+”人工智能三年行动实施方案》，为人工智能发展提出具体的策略方案。根据乌镇智库2016年度发布的《乌镇指数：全球人工智能发展报告2016》，中国在人工智能企业数量、专利申请量、融资规模上仅次于美国，发展潜力巨大。