经过五天的鏖战,德州扑克人工智能系统Libratus毫无悬念获得最终胜利。在这场德州扑克人机大战中,中国龙之队的六位牌手共与冷扑大师打了36000手牌,共输792327分,AI完胜人类。
比赛的结局并不出乎意料,开赛之前,创新工场创始人、董事长李开复就曾表示:“对人类能赢感到悲观,赢的概率不到10%。”事实上,今年1月,在宾夕法尼亚州匹兹堡的Rivers赌场,CMU开发的Libratus人工智能系统就曾击败过人类顶级职业扑克玩家,那场比赛共持续了20天,对玩了12万手,最终AI赢得了176万美元。
会诈唬的AI
Libratus是一个玩无限德州扑克的人工智能程序,Libratus的策略并非基于专业玩家的经验,所以它的玩牌方式可能有明显的不同。基于在匹兹堡超级计算机中心大约1500万核心小时的计算,它使用算法分析德州扑克规则,从而建立自己的策略,而且它能够在比赛中,通过预测所有未来步骤的胜率来思考自己的下一步。
与围棋强调计算和形式判断能力不同,德州扑克更讲究多人博弈过程,如何避免人性贪婪等弱点,并将科学的概率统计与灵活的实战策略很好地配合起来。在围棋、象棋等游戏中,机器和人类在决策前可以获得全部信息,而在德州扑克中,彼此无法得知对方的底牌是什么,也不知道发牌员发出的下一张牌是什么,在“不完整信息”下,人工智能需要根据经验或概率统计知识,猜测对手底牌和下一张牌的可能性,然后再制定自己的应对策略。
“如果AlphaGo是一个超级天才,冷扑大师CMU系统其实一定程度上是一个EQ专家,是靠EQ来打败你。”李开复表示。表演赛为求降低发牌中的运气因素,机器人采用复式对称发牌,两两成对的牌手其中一人将拿到与配对牌手对打的机器人底牌,因此六名牌手将拆分于两个房间和冷扑大师对阵,比赛过程中还必须确保配对牌手彼此不能碰面交流。在整个比赛中,冷扑大师也经常出现一些“诡异”的打法,例如时常超池下注,给对手造成极大的压力,并做出人类出于心理原因做不到但是正确的bluff(诈唬)。
“AI利用增强学习技术,从自我对局中学习最优的扑克玩法,而避免从人类的既定模式中学习经验,这是非常重要的一点。”李开复表示。不过,据了解,目前Libratus的算法还只适用于无限制投注的一对一比赛,如果将比赛扩展到更常见的多人制比赛,Libratus面对的挑战会更大一些,还需要进行策略上的升级与调整。
人工智能应用挑战
正如马云所提及的疑问一样,人工智能打败人类围棋大师,所以会打扑克的人工智能在解决更为广泛的现实问题方面又有哪些价值?在李开复看来,世界上大部分的信息还不是公开的,冷扑大师在面临不完全或误导信息时的推理能力,未来能够解决在决策、外交、商业合作、谈判方面的不确定性问题,成为人类的“参谋”。
但如同谷歌人工智能大胜人类围棋大师,使得AlphaGo的能力被充分认知,但在商业化方法和能力方面却并不明显。以AlphaGo为例,需要学习数量庞大的棋局才可以掌握有效的下棋技巧,而冷扑大师目前的对战形式也是一对一,而现实生活中德扑是多人游戏,多人游戏在计算上的复杂程度是目前冷扑大师所无法胜任的。
人工智能和冷扑大师所提炼出来的人工智能技术如何发挥其商业价值,李开复认为仍需要满足三个条件:海量的数据、数据有标注、单领域。例如在金融领域,金融是虚拟的、由人创造的,数据量庞大且天生带有标注,譬如股票的涨停、小额贷款是否还钱、买了保险后是否出事都是一种标注,这使得AI在放贷、银行、投资、保险方面具有潜力。
“相较于告诉人们人工智能能做什么,目前更重要的反倒是告诉人们,人工智能不能做什么。”地平线机器人技术创始人兼首席执行官余凯曾向第一财经记者表示,在他看来,人工智能进一步拓展的首要挑战就是数据不足的问题。众所周知,人工智能是建立在海量数据基础之上,通过大数据训练,来优化算法模型,以人脸识别技术为例,训练这一算法模型需要至少百万级别的图片数据。
目前,人工智能主要是监督式学习,有监督的训练就需要带标签的数据,因此数据的质量和精准度与输出结果密切相关。“如何剔除数据中的噪音、垃圾信息,获取优质且带有标签的数据成为新挑战,这其中就涉及到无监督式学习或者半监督式学习。”地平线机器人技术联合创始人、算法副总裁黄畅说。
另一大挑战在于深度学习的推广和场景迁移能力不足,每个领域的数据都需要重新收集、标准和再训练,很难进行跨领域推广。这些挑战也是人工智能工业界和学术界急需突破的问题。“在招聘的过程中,懂得深度学习的人很多,而懂得迁移学习、增强学习,具备思辨能力的人很少。”第四范式创始人、首席执行官戴文渊告诉记者。
在实际应用层面,人工智能仍有很长的路要走。正如李开复在比赛结束后的回应一样:“人工智能已从完美信息的AlphaGo,延伸到了不完美信息的冷扑大师,人机对战基本没有悬念了,据闻AlphaGo近期即将来华和柯洁对战,其实已经不再具有科学意义了,以后更应该关注商业领域的人工智能,在金融、医疗、教育等领域产生的商业价值。”