CAAI热点评论丨焦李成：Master虽优势较多，但仍有缺陷

中国人工智能学会mp 2017-01-12 15:42:15 AlphaGo Master 阅读(0) 评论()

声明：本文由入驻搜狐公众平台的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。举报

　　小编按

　　从Master60局不败的记录到公布其就是AlphaGo升级版，围棋界这颗重磅炸弹引起的余波至今未停，我们特别邀请了学会的一些学者和老师共同对此次人机对弈分享一些独到见解，本篇为中国人工智能学会副理事长焦李成教授的精彩短评，欢迎同好者一起讨论。

　　近日，Master在各大围棋网站横扫顶尖职业棋手，随后，谷歌DeepMind创始人德米什·哈萨比斯在Twitter上发布消息，证实了Master是AlphaGo的升级版。众所周知，围棋困难的地方在于它的估值函数非常不平滑，差一个子盘面就可能天翻地覆，同时状态空间大，也没有全局的结构。这两点加起来，迫使目前计算机只能用穷举法并且因此进展缓慢。但人能下得好，能在几百个选择中知道哪几个位置值得考虑，说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括，但所需的信息量还是要比状态空间本身的数目要少得多，只有找到能学出规律的学习算法，才是解决问题的根本手段。

　　那么作为人工智能领域的围棋大师，AlphaGo及其升级版Master是如何工作的？总的说来，AlphaGo结合了三大技术：蒙特卡罗树搜索是大框架，强化学习是通过自我对弈来提升实力的学习方法，深度神经网络（深度卷积神经网络）用来拟合全面评估函数和策略函数实现搜索复杂度的大大约减。当然，《自然》论文详解了AlphaGo背后的深度神经网络和蒙特卡罗树搜索策略，即使用蒙特卡罗树搜索算法（从非常复杂的搜索树约减至可操作的规模），借助价值网络和策略网络这两种深度神经网络分别来实现评估大量选点与落点（依据胜率高低），二者的结合极大的降低了搜索空间的复杂度，其中价值网络降低搜索的深度，策略网络降低搜索的广度。

　　AlphaGo相对人类的优势在于它的大局观天生比人强得多，因为有强大的计算资源保证模拟的终局数量足够，策略网络和价值网络剪枝又保证了模拟的质量。然而，AlphaGo仍然存在如下三方面缺陷：1、打劫：AlphaGo会尽量避免打劫。原因是打劫会导致后续算法变得异常复杂，使得结果却充满不确定性。2、策略网络存在着概率隐患：策略网络，即通过人类棋手的历史棋局、自我对弈的强化学习对可能下棋的点做出概率判断从而缩小范围的核心算法。由于围棋棋局的复杂性，有时对一些重大隐患点可能会认为概率低而有忽略。3 、价值网络也有概率隐患：价值网络，即预测每一步及其后续步骤构成的赢棋概率。同样因为预测步骤有限，有时会对一些目前可行性较小、明显对自己有利的棋之后续较长远局势缺乏正确判断。