大数金融漆瑾声：风控江湖，既要模型宝刀，也要策略功夫

调研 | 凯文张扬

撰写 | 吴云

　　大数金融专注于小微企业主贷款，风控是其核心优势。近日，漆瑾声履新大数金融CRO，继续提升公司风控水平。

　　漆瑾声有多年风险管理实践经验，曾任美国银行风险管理高级副总裁、花旗银行信贷风险副总裁，摩根大通银行市场部副总裁，后在FICO任职。

　　加入大数金融后，漆瑾声主导风控系统搭建，将进一步完善已有的模型和策略体系，目标是实现国际领先水平。

　　在风控的链条上，第一环是数据收集。在数据变量的划分中，还款信息、负债信息等征信报告数据是强相关变量，数据质量最高，而社交数据、水电煤等属于弱相关变量，只能作为征信报告数据的有效补充。

　　社交数据等弱相关变量只能协助判断信用风险，但对于反欺诈和营销而言是强相关变量。通过分析用户的社交关系网络和浏览网站类型等信息，可以估计欺诈概率。另外，分析反映用户偏好的数据可以帮助实现精准营销。

　　风控的第二环是数据处理，包括数据清洗和建模。国内很多数据公司并不缺乏建模的人才和能力，但却往往忽视了数据清洗，而数据清洗的质量直接决定了模型以及最终的风控效果。

　　在数据的收集、清洗、建模之上，是指导其运作的整套策略。相对而言，建模是标准化的工具，而策略是经验驱动，需要长时间的积累。

　　漆瑾声认为，“模型就像一把刀，功夫好的人不是靠一把好刀就行，还要看怎么用这把刀。怎么用就是策略，这很重要。但是策略不是一蹴而就的，需要不断打磨。”

　　大数作为国内领先的金融科技公司，在建立风控体系上有何经验？日前，爱分析对漆瑾声进行了访谈，现节选部分精彩内容与读者分享。

　　不是用到了数据，就是数据驱动的风控

　　爱分析：大数金融没使用过外部提供的模型？

　　漆瑾声：大数在考察一些外部模型，我们发现，不少外部模型表现差强人意。市场上的很多数据公司在开发模型时面临的难题是，只有X，拿不到Y，或者拿不到足够覆盖面（广度）和时间长度（跨度）的Ｙ。因为它不是银行，拿不到客户的逾期信息，这些逾期信息就是所说的Y。

　　不是用到了数据的风控就是数据驱动风控。现在很多公司的风控都说是运用大数据，是数据驱动的风控模式，其实具体来看还是有差异的。真正的数据驱动需要有风险表现标签作为靶心，也就是通常说的Y，在此基础上做一个多维度X的非线性方程式的拟合。没有Y的模型或者策略，严格意义上都不能叫数据驱动。

　　爱分析：哪些变量是强相关的X变量？

　　漆瑾声：强相关变量绝大部分都来自于央行征信报告，比如还款信息、历史逾期次数、负债等，有很多个维度。然后再把这些强相关变量与时间、频率等结合分析，做成多个维度的评分。

　　爱分析：很多机构没有权利去查央行征信，是不是只能选择弱变量建模？

　　漆瑾声：在这种情况下，退而求其次，使用弱变量是自然而然的选择。具体效果有多好，取决于机构的水平。

　　利用第三方数据最大的难点不在于建模的方法论本身（当然建模也有很高的技术含量），而在于数据挖掘，就是怎样从海量数据中，大海捞针似的找出征信报告类似的数据。

　　IFC对数据质量做过分层，即使社交网络数据，也只是属于第三层或者第四层。美国通常把这些叫替代性数据（Alternative Data），而不是大数据（Big Data）。实际上从信用风险建模的角度，这些数据的效用不如征信报告里的变量。

　　征信报告中很容易找到对模型有帮助变量，但在无边无际的、门类繁杂的海量第三方数据中，可能只有千分之一甚至万分之一的数据对模型有帮助，这是难点，而且还要去辨别数据的质量，因为很多数据来源不明确。

　　爱分析：社交数据是否用于反欺诈更有效？

　　漆瑾声：相对信用风险防范而言，社交数据在反欺诈、营销等领域都会更有效得多。

　　反欺诈中，可以通过链接分析用户的社交关系，如果发现朋友圈里骗子特别多，那么用户高概率是骗子。如果联系人里面有很多贷款中介，或者用户经常登陆一些欺诈类网站，或者有多个亲朋好友是黑名单人员，都可以估计用户的欺诈概率。

　　反映用户偏好的第三方数据是营销强相关变量，对营销模型很有用，可以帮助实现精准营销。所谓精准营销就是知道用户想要什么，有多想要，比如一条短信过去就能够准确评估出用户购买的概率。

　　至于信用风险方面的用处，只能是征信数据的补充，协助判断。比如用户的手机号用了十年以上，那么他高概率是个诚信的人。比如经常坐飞机旅行，很可能是个还款能力很强的人。

　　模型方法论已成熟数据清洗易忽视

　　爱分析：如何评价数据和模型各自的重要性？

　　漆瑾声：模型本身的方法论已经很成熟、很标准，技术上不存在障碍，关键在于数据源和数据清洗。美国三大征信局的成本很大部分其实是数据收集、整理、清洗和衍生，占到总运营成本的很大比例。

　　找一个统计学毕业的学生，单独培训几个月到一年，只要天赋不差，就能做出不错的模型。但是找一个有数十年经验的模型专家，如果数据是有问题的，他也做不好。

　　爱分析：数据源决定最终的风控效果？在信用风险领域，如何保证数据的质量？

　　漆瑾声：要实现好的风控，其中一个重要的前提是保证数据的质量。要保证数据的质量，不仅看数据源，数据清洗可能更为重要。数据清洗是脏活累活，有着很标准的流程，包括数据的质量判断、做衍生变量、加工、清理等几个环节，非常严谨。需要有经过专业训练的团队来做数据清洗，如果这块没做好，就是“garbage in, garbage out“。如果数据本身是错的，算法再厉害也没有意义。

　　爱分析：模型和风控策略是什么关系？

　　漆瑾声：模型好比是刀，策略是使刀的功夫。功夫好的人不是靠一把好刀就行，还要看怎么用这把刀。

　　模型学问很大，但模型远不是全部，真正体现业务水平的是以模型为工具的策略的运用。策略上线之后，很快就会有结果，做得好不好一目了然。比如有没有欺诈案件通过，信用风险有没有暴露等。

　　AI在金融领域的应用--适用的才是最好的

　　爱分析：现在大热的人工智能（AI），在金融领域有哪些应用？

　　漆瑾声：AI在国内是一个被误解的词，或者说被玩坏了。实际上，AI在金融领域已经应用多年，比如零售信贷审批系统里的决策引擎就是典型的AI，例如一个人输入身份证号，系统通过布置在里面的逻辑就能直接给出决策，比如能否给他批30万贷款。这个决策本身就属于AI的范畴，只不过它的模型算法跟AlphaGo不太一样。

　　现在业界通用的评分卡是逻辑回归算法，而大家熟知的AlphaGo的AI使用的是神经网络算法，是深度学习的一种。AlphaGo应用到的神经网络模型，在多年前已经被广泛应用于Visa、Master的信用卡交易反欺诈模型。但在信用风险审批领域并没有成功的案例，为什么？因为不适用。适用的才是最好的。没有哪个算法能够包打天下。算法也不是最前沿的就是最好的。虽然最前沿也最吸引眼球，但最前沿往往也意味着还不成熟。

　　大数金融的风控目标：小微贷款领域的国际标杆

　　爱分析：大数的坏账在什么水平？

　　漆瑾声：如果严格按照银行核销方法的统计口径，大数现在的不良率是0.6%。

　　爱分析：大数风控的下一步提升思路是什么？

　　漆瑾声：长期目标是从行业的标杆做成国际的标杆。我们会有崭新的模型体系，更完善的策略体系。比如评分卡细化，将来可能会有七八张不同类型的评分卡。

　　我们要实现对用户整个信贷生命周期的管理，用严密的策略和模型来做贷前、贷中、贷后管理。

　　我们会不断迭代我们的模型和策略，成为最新一代的小微贷信贷工厂的样板和标杆。

　　其它

大数金融漆瑾声：风控江湖，既要模型宝刀，也要策略功夫 | 爱分析访谈