12条J.P. Morgan给出的金融行业中机器学习和大数据工作的宏观指引-搜狐

　　热门下载（点击标题即可阅读）

　　?【下载】2015中国数据分析师行业峰会精彩PPT下载（共计21个文件）

金融行业工作的流行趋抛总在变幻。2001年的时候，对互联网公司的股票研究火地一塌糊涂。到了2006年，构建债务抵押债券（CDOs）的工作风靡一时。2010年，流行的风向标又变成了信贷交易。再到2014年，合规专业的人士很受欢迎。转眼到了2017年，机器学习和大数据又大规模入侵了金融业，看上去变成了一项非常有前途的方向。

J.P. Morgan的量化投资和衍生策略部门刚刚发布了一份关于大数据和机器学习在金融业务中的应用的详实报告。

这份以《大数据和AI战略》为主标题，《投资中的机器学习和其他数据方法》为副标题的报告指出，机器学习将会对未来的金融市场起到至关重要的作用。分析师，投资组合经理、交易员、首席投资官都将需要熟悉机器学习技术，否则将会被市场所淘汰。随着新型的数据集和方法的采用，像季度收入和GDP数据这样的传统数据源将会变得相关性越来越低，这些新的数据集和方法能够帮助金融从业者更早地做出预测和交易。

以下是从280页的报名中摘选一部分的精华，与大家分享。

1. 银行需要招聘出色数据科学家，他们同时又理解金融市场的动作。

现在市场上有一股风气是把数据分析的能力放在市场知识之上，J.P Morgan对此持谨慎态度。并且认为这么做是非常危险的。理解数据和信号背后的经济比开发复杂的技术方案来得更重要。

2. 从短期和中期来看，机器是最适合做交易的。

J.P. Morgan认为，其实人类已经做的很不错了，但是如果从高频交易的角度来看，机器还是优于人的。在未来，机器将会越来越流行。机器能够快速的分析新闻、微博，处理收益表，抓取网站并且做出实时的交易。这些将使得做基础工作的分析师、股票多空经理以及宏观投资者变得越来越不重要。

但从长远角度来说，人类还是具有优势的。机器在分析制度变化和预测等诸如需要深度解读政客和银行家的发言、理解客户立场这样的场合还是不如人类的。

3. 需要大量的人工来做数据的收集、清洗和评估的工作。

在机器学习策略落实之前，数据科学家和量化研究员需要收集和分析数据，以此来获取可进行交易的信号和洞察。

数据的分析是很复杂的。今天的数据集也远比之前的要大得多。数据产生的方式也很多样，有个人在社交媒体发表的观点、对产品的评价以及搜索的趋势，也有来自商业流程的数据，像商业交易、信用卡数据等，还有通过传感器收集过来的数据，像卫星数据，行人和车辆数据，船泊的位置数据。这些新形式的数据在被纳入到交易策略之前需要经过分析，并且判断这些数据是否能带来收益。而这些数据的含金量又是和获取数据的成本，需要经过的流程以及是否妥善的对数据集进行了使用息息相关。

4. 不同目的使用的机器学习方法也不一样。

机器学习包括了监督学习、非监督学习还有深度学习和强化学习等。

监督学习的目的是为了建立两个数据集的关系，并且用一个数据集去预测另外一个。而非监督机器学习的目的是去理解数据的结构并且识别出背后的驱动力。深度学习的目的是用多层的神经网络去分析一个趋势，而强化学习是用算法去进行探索，找到最有价值的交易策略。

5. 监督学习通过样本数据，可以用来做以基于趋势的预测。

在金融的情境下，J.P Morgan认为监督学习算法将会通过给定的历史数据，然后希望能找出具有最强预测能力的关系。监督学习算法有两种不同的方法：回归法和分类法。

回归法可以通过输入变量来预测输出。例如，如果通货膨胀突然加剧了，通过这种方法可以判断市场的走向

分类法则是希望能找出某个分类是属于哪一类的。

6. 非监督学习用来在一堆变量中找出关系。

在非监督学习中，机器会被输入一堆的数据，无法判断他们是独立或者是非独立的变量。在高维度上，半监督学习的方法其实是一种类别、聚类、要素分析。

聚类包括根据相似性的概念，将一个数据集分拆成一些小组。要素分析则希望能识别出数据的主要的驱动力，以此来判断数据最好的表示。例如，收益率曲线运动可以通过收益率的平行移动、曲线的陡化和曲线的凸性来描述。在多资产组合中，要素分析可以用来确定主要驱动力，如动量、价值、carry、波动性或流动性。

7. 深度学习系统用来进行那些人类难以定义但却易操作的任务。

深度学习其实是一种很好的模仿人类智慧的方式，尤其是适合处理一些非结构化的数据。例如，用来去计算卫星图片中的车辆、识别出一篇新闻稿件的情绪。一个深度学习模型可以用一个假设的金融数据系列来评估市场回调的可能性。

深度学习是基于神经网络的一种方法。在一个网络中，每个神经元可以从其他神经元中获取输入信息，并且计算这些输入的平台权重。而不同输入的相对权重是由过去的经验所指引的。

8. 强化学习用来通过选择一连串的行为来最大化收益。

强化学习的目的是通过选择一连串的行为来最大化收益。和监督学习不同，强化学习模型并不知道每一个步骤的正确行为是什么。

J.P Morgan的电子交易小组已经开发了一些强化学习算法。下面的表格展示了这家银行的机器学习模型。（我们猜测J.P Morgan对这幅图进行了模糊化处理）

9. 你需要成为的不是机器学习领域专家，而是出色的宽客（quant）和程序员。

数据科学家所需要的技能组织实际上和量化研究员是一样的。现有的买方和卖方中具备计算机、统计、数学、金融工程学、计量经济学和自然科学背景的宽客应该重塑自己。量化交易策略中的技巧将会是非常重要的技能。对于宽客研究员来说，调整一个数据集的形式和大小是非常容易的一件事情，而且比IT专业人士、硅谷创业者还有学术界的人士更能利用统计和机器学习的工具来设计一个可变的交易策略。

同时，你也不需要了解任何一个好的交易当中的机器学习技术。大部分的机器学习方法都已经被写好了，你需要做的只是在现有的模型中把他们用进去。如果想要开始的话，J.P Morgan的这份报告建议大家利用像Weka这样的以GUI为基础的软件，从小规模的数据集开始。像Keras这样的Python方案也有很丰富的库，还可以试试Tensorflow和Theano。