科控知道 | AI之机器增强学习

进入2017年,人工智能已经成为了炙手可热的四个字,同时整个人工智能范畴都属于科研难题,包括机器学习、搜索、模式识别等问题都是可以作为独立科目存在的。机器学习是人工智能的一个核心研究领域,关于机器学习,Tom Mitchell在他的《计算机科学丛书:机器学习》一书中给出了这样一个的定义:“机器学习这门学科所关注的问题是:计算机程序如何随着经验累积自动提升。”在整个机器学习的发展历程中, 一直有两大研究方向。一是研究学习机制,注重探索、模拟人的学习机制; 二是研究如何有效利用信息,注重从巨量数据中获取隐藏的、 有效的、 可理解的知识。

  

  那么,如何实现机器学习呢?

整体上看, 机器学习就是模仿人识别事物的过程,即:学习、提取特征、识别、分类。由于机器不能跟人类思维一样根据事物特征自然而然的选择分类方法,所以机器学习方法的选择依然还需要人工选择。

常见的机器学习算法分为三类:有监督学习、无监督学习、增强学习。有监督学习需要标识数据(用于训练,即有正例又有负例),无监督学习不需要标识数据,增强学习介于两者之间(有部分标识数据)

在此分享一则由Cocoon Networks和欧美著名知识分享网络平台BrightTALK合作的视频通道。

  “强化学习”主题:

  https://www.brighttalk.com/webcast/15321/259873?utm_source=Emotech&utm_medium=brighttalk&utm_campaign=259873

增强学习(reinforcement learning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。比如说要设计一个会下象棋的AI,每走一步实际上也是一个决策过程, 所谓决策就是从环境状态到动作的映射的学习,我们把这个映射称为决策。对于这种控制决策问题,其实就是一个马尔可夫决策过程,我们通常设计一个回报函数(reward function), 称作为Q。一个马尔可夫决策过程由一个四元组构成Q = (st, at , γ, Q) 。它决定了下一步的行为。

在视频中有个简单的例子,吃豆豆小游戏,我们要吃到尽量多的豆豆并且不能被幽灵吃掉。st代表着当前的一个状态(state),也就是你目前所在的位置,at代表动作(action),有上下左右四个选择。在这个游戏里,Q方程表示为我们在“t”这个时间状态下所获取的回报,也就是由现在所得的分加上未来可能得到的最高分。Q方程输入两个变量:位置和动作,得出的 数字代表着我们在这个位置状态下所采取的动作所给我们带来的利益,而且这个数字越大越好。

  

研究科学家Pedro Madiano

由图可见,现在有四种情况,在同一个位置有前进、向左、向右和后退四个方向可以选择,假设说在当前的状态下,前进这个行为所得出的数字最大,那么我们就采取前进这个动作。

更通俗来说,人的一生其实都是不断在强化学习,当你有个动作(action)在某个状态(state)执行,然后你得到反馈(reward),尝试各种状态下各种动作无数次后,这几点构成脑中的马尔可夫模型,使你知道之后的行为什么为最优。所以你现在才知道什么东西好吃,什么东西好玩。

增强学习是机器学习中一个非常活跃且有趣的领域,相比其他学习方法,增强学习更接近生物学习的本质,因此有望获得更高的智能。

他还提出将深度学习与强化学习融合形成“深度强化学习”,可以解决通用人工智能难点的核心,因为它具备使机器人实现完全自主的学习一种甚至多种技能的潜力。

  

增强学习还有很多具体的例子,假设我们要构建一个下国际象棋的机器,这种情况不能使用监督学习,首先,我们本身不是优秀的棋手,而请象棋老师来遍历每个状态下的最佳棋步则代价过于昂贵。其次,每个棋步好坏判断不是孤立的,要依赖于对手的选择和局势的变化。是一系列的棋步组成的策略决定了是否能赢得比赛。下棋过程的唯一的反馈是在最后赢得或是输掉棋局时才产生的。这种情况我们可以采用增强学习算法,通过不断的探索和试错学习,增强学习可以获得某种下棋的策略,并在每个状态下都选择最有可能获胜的棋步。目前这种算法已经在棋类游戏中得到了广泛应用。前段时间Alphago和柯洁人机对战下围棋,Alphago三胜柯洁。Alphago就是运用到增强学习算法的一个人工智能。

  

AlphaGo之父——杰米斯 · 哈萨比斯在剑桥大学一场演讲中,把那场报告命名为“超越人类认知的极限”,人工智能就是这么一个存在,它已经强大到一种不可思议的高度,完美的诠释了“青出于蓝而胜于蓝”人类把它创造出来,现在却被它打败了,而机器学习作为人工智能的一个重要核心组成,必然是未来会被不断创新以及被超越的的一个存在。

你可能更想看:

」「2017中英科技节阿里巴巴诸神之战「」「」「」「」「」「」「」「」「」「」「」「」「」伦敦龙硅谷论坛

  想了解更多关于

  海外创投,科技项目专栏

声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
推荐阅读