李根 发自 凹非寺
量子位报道 | 公众号 QbitAI
这又是一个AI创造的商业范式。
自2015年7月产品上线,截至2017年3月, 用钱宝App及其运营主体智融集团,创造了下述运营数据:
近2000万注册用户,单月交易笔数超150万笔,单月交易总额超25亿元,每笔小额贷款的常规机器审核速度平均只需8秒。
用户都是那些传统银行不屑一顾的人,他们无央行征信报告、没公积金,甚至拿不出工资流水证明,却在机器的“法眼”下获得小额信贷。
基于此,这家公司靠每一单的技术服务佣金而盈利、实现规模化正向营收,还因此被投资机构热捧,累计融资6.7亿元人民币,估值超过10亿美元。
但这并不是又一个AI替代人类职位的故事。
如果相同的事情交给人类完成。每月150万笔交易,单笔审核速度8秒——这不是想不想实现的问题,而是能不能实现的问题,难度堪称天方夜谭。
更何况银行又怎会集中心思关照一群非“优质”呢?他们可能是餐厅服务员、快递员、蓝领、三四线无固定收入的青年人——他们在传统银行风险体系中,逾期风险看似更大。
然而套用那句环保里的老话:一切可能只是被错置了的宝贝。
用钱宝App的思路,正是为现有情况换个引擎,一切放到机器视角下。
焦可,前百度高级经理,前赶集网产品负责人,清华计算机系高材生,一个以程序和机器之眼看待世界的人,现在的身份是智融集团CEO,用钱宝的缔造者。
他和他的技术背景团队,正在把金融数据和风险评估,变成机器能懂会算的“游戏”。
△智融集团创始人焦可
机器视角里,评判的维度不是“好不好”,逾期的风险也不是“会不会”,而是基于人工智能风控引擎,通过搜集更多数据样本、更快找到问题的函数表达,实现对用户模型的最佳预测。
这个AI风控引擎,被智融集团称为“I.C.E.”体系,I表示Identification(识别),C表示Calculation(计算),E表示Evaluation(决策),正是这家公司人工智能的三大核心。
△“I.C.E.”体系
更直观通俗地表达,也是三大步骤:
第一,如何识别并找到学习依据;
第二,如何支撑所有的依据,这需要具备强大的计算能力;
第三,数据告诉我问题的上限在哪里,如何逼近上限,并且可以预测未来的情况。
有意思的是,整个用钱宝的“I.C.E.”体系,还可以和无人车进行类比,焦可向量子位解释称,识别工程好比无人车的激光雷达,计算模型好比藏于无人车后备厢的服务器,学习和决策系统,则类如无人车系统大脑。
唯一有所区别的是,无人车需要车端和云端的不断交互计算,而用钱宝App的计算都可在云端完成,用户终端最后只感知到结果:借不借我?额度多少?
弱特征数据
当然,关于如何让AI运转的道理,你已然不陌生。
但用钱宝之所以让这套AI成为“唯我所用”的商业利器,焦可团队有自己的关键本领:一方面是解决创业公司“标注数据”怎么来的问题;另一方面是冷启动阶段怎样让初始模型靠谱?
首先,标注数据。
在用钱宝整个AI实战应用中,最关键的立身之本在于“弱特征数据”的运用。智融集团CEO焦可解释称,弱特征需要以强特征作为参照来理解,而所谓强特征就是传统金融机构使用的特征,与是否逾期相关性很强,诸如银行工资流水、公积金报告,工作证明等。
所以更加直白地说,弱特征数据可以是那些强特征数据之外的一切特征数据,在用钱宝两年积累的数据库中,有效弱特征维度高达1200多个。
用钱宝开始启动时,设定的“弱特征数据”包含:年龄、性别、地域、工作种类,星座等,通过各个维度的数据模型验证相关性。
有意思的是,诸如“星座”之类的弱特征数据,与逾期相关性并不高——一个处女座的用户,也可能忍住“强迫症”不还钱。
也不难发现,这些数据的最大特点是“门槛不高”,获取成本和难度不大。另外单个数据涉及的隐私关联度有限,并不会让用户有较重的心理负担。对于一个金融信贷类创业App来说,这对流量和获客,找到目标服务人群,助益良多。
这也直接决定了用钱宝最后的用户群体画像。在用钱宝公布的截至今年3月的数据中,用户画像中占比最高的画像特点是:年轻(20-30岁占74.1%),男性(占比83.5%),二三四线城市为主(分别是22.97%、20.27%,29.63%)。
△用钱宝用户画像
其次,AI创业产品冷启动。
用钱宝方面的核心观点是“强需求”,因为此前市场需求并没有得到满足,所以产品上线开始,数据就能不断滚动。
焦可透露,2015年10月上线,第二天就有2万笔小额贷款,而诸多“弱特征维度”在现在看来简直“寒酸”,然后当月内,用钱宝团队只让机器批复了93笔,通过率1%——除了“艺高人胆小”式的谨慎,也是为了获得有效样本反馈,即逾期率情况。
焦可称,这样的冷启动大概耗时3个月,“审了几万名,最后有几百名的样本回来”,最后数据模型不断调整、完善、精准,以至于产品上线一年后,月放款数达100万笔,2017年3月的最新记录,则达到了150万笔,每笔耗时仅8秒。
当然,量子位也实地使用了用钱宝App,在完成注册后,确实只需要完成“身份认证”、“个人信息”、“收款信息”和“手机认证”四步后,就能获知是否会被机器“信任”。
另外,你也可以通过加分项提升额度——这道选做题中拓接了更多平台维度,比如名为“基础认证”中的“芝麻认证”和“淘宝认证”,还有“更多认证”中的“常用银行卡”、“京东认证”、“微信认证”和“QQ认证”。
归结起来,每一项都是入口,入口背后你的数据特征,都可成为机器评判风险的因子中的一环。最后在层层数据和模型计算之后,可能关于你的分析报告,不是传统银行的“通过”或“不通过”,而是“可借500”、“可借1000”——或还能精确到更小的位数,定量分析是机器的长处。
这也是AI正在让不少人类职业技能和经验,变得不堪一击的原因。
还有什么是机器无法替代的?
如此精确的计算能力,引起人类职员的担忧是自然而然的。更何况相较于人类,机器可以不眠不休、不疲不困,迭代能力强,任何时候都没有情绪干扰,也无法被买通……
但并不意味着机器就能完全替代人类工作,甚至在全数据“游戏”的银行金融领域,现在也做不到。
从业者焦可就对这样的“机无能”十分清楚。他认为现在用钱宝背后的引擎,烧的是工程师、数据和机器,并且开拓的是一片中国全新的增量市场,因为个人小额信贷,之前对于银行来说并不迫切,这是具体应用场景和国情带来的机会,可以利用机器打通全流程。
然而如果应用场景变成了“企业贷款”,可能现今机器识别就没有人类老司机来得靠谱,因为企业类贷款样本少、周期长,很难去做数据基础上的反馈测试和迭代。
此外,企业类贷款影响因子也比较多,比如我是做太阳能面板的,今年雨水天气多,就可能相应受影响比较大,小数据相关的定性分析,人类尚优于机器。
不过,面向趋势而言,机器引擎对传统引擎的替换,可能难以避免。
在银行金融领域,传统引擎赖以运作的关键是专家、经验和人力,但这些要素无论在标准,还是效率上来说,都远不如机器高效。
焦可认为,虽然现在整个市场利用AI完全切入更换机器引擎,并不现实,目前数据模型的空间,还有很长的路要走(他自己为当前模型水平最高打分10分,满分100)。而且现在小额信贷的增量市场,也还有非常大的填补空间,以及更好的反馈目标(高放贷率、低逾期率)。
但趋势所向,也已经非常明确。这从AI公司的“边界认知”便可窥见一斑。
量子位问焦可,智融会是一家什么样的公司?
焦可的答案是“特斯拉一样的公司”:并不满足于“汽车”,而是志在“加速全球能源转换”。
他和自己的100多个技术工程师,目标是做出一套不依赖人、依赖机器AI的引擎,这套AI引擎不仅可以用在小额信贷领域,也能迁移使用到更多金融相关领域,甚至是更广阔的领域。
“我们会长时间专注在金融领域,它有利于我们把模型跑得更精准,但并不代表我们只做跑车,还可以做SUV、货车、大客车,种类不少,总之是一切可以烧AI引擎的东西。”这位智融集团CEO说。
不过,焦可创业路途中也曾走过弯路。当时他自以为掌握了“技术引擎”的团队,犯了“拿着锤子找钉子”的错误,于是上一款产品并没有获得原以为的成功。
他以自己的亲身经历提醒AI创业者:凡事不要先讲AI,而是先找到需求,解决需求,从一个问题出发,去找解决方案,真正解决业务问题。
巨头卧榻之侧
最后,用钱宝的经历,可能还有“巨头卧榻之侧”的意义,涉及到的问题不仅是创业公司如何在巨头关注的领域里精进快跑,还有AI大背景下的意义:没有巨头一样的数据量,如何与巨头竞争?
焦可等一批工程师,大部分来自BAT,其中还有多位百度T7级以上工程师,而消费信贷金融,也正是百度希望借助大数据、AI等技术手段参与分羹的,为此百度还专门分拆独立了百度金融事业群组(FSG)。
百度为代表的巨头,所拥有的核心优势也是显而易见,一方面是数据上,通过自己的生态可以拿到更多更强相关的数据,二是技术人才储备上数量级肯定比创业公司庞大。
但用钱宝确实又在短短两年内,做了百度金融想做而未能企及的业务。巨头卧榻之侧,智融一类的创业公司何以“酣睡”?
焦可的观点是,数据确实是AI创业公司的“软肋”,但即便数据没有BAT多,也能够做得比BAT好,核心原因在与数据样本反馈的效率上。
具体到用钱宝所处的小额信贷上,焦可表示最长只要一个月,就能知道数据样本的反馈,并且能在样本反馈的基础上挑战迭代,积累起更多更有效的反馈样本数据。
而巨头的数据优势更多在于“流量入口”优势,在起初获客成本上占便宜——这并不能够直接决定胜负。
焦可还将“模型、算法和参数”为一体的数据引擎比喻为“做菜”。他认为,有更多的原料(数据)、更精湛的厨艺(算法),可以让你做出更多更好的菜,但最后还有关键一点,你得有大量的食客,不断有人向你反馈,你才知道你的菜是否真正好吃。
而这个流程会造成马太效应——样本越多,模型越好,通过率就越高、坏账率也越低。然后通过率越高,获客成本就越低,用户增长就越快。“坏账率低就会导致我的坏账成本很低,这样我的经营状况就能越来越好。然后依此循环往复。”
最后,在这个过程中,和巨头的起步优势就会越来越接近。而且随着业务复杂程度越高,巨头所擅长的能力及优势,就可能更加缺乏用武之地,这在打车、外卖等垂直领域,已经有了现实例证。
也就是说,“边缘创新-垄断-成为巨头-被创新突破”的宿命,谁也无法逃脱,即便对数据量有天生依赖的AI产业,数据也不是难以解决突破的根本性难题。
而技术算法就更不用说了,这些依赖于人才的因素,目前AI创业公司也正在展现出更强劲的吸引力。智融集团的投资人之一,创新工场董事长李开复博士对于巨头的AI人才流失问题,有过这样的分析。
他认为,巨头也很重视人才,但即便给他们授予数量不菲的占比0.1%的股份,可能也会在与创业拥有60%股份的诱惑中败下阵来——即便创业的风险让这60%并不比0.1%安稳。更何况创业创新所展现的愿景吸引力,可以改变世界或某一领域的成就感,也远远超过在大公司里提升某一项业务来得更具号召力。
“巨头人才流失问题,没有很好的解法。”李开复说。
OMT:AI三核心要素实战原理
One more thing,如果你还想了解智融“I.E.C”引擎的具体工作原理。智融集团CTO齐鹏,曾在CCF-GAIR全球人工智能与机器人峰会上进行过分享:
Identification(识别)
取名“柯南特征工程”,通过三个方面发挥作用。
△柯南特征工程
第一,把原始数据加工成机器可以理解的数据过程。好比有一个发动机,但发动机的类型不一样,其启动场景不一样,同时,不同场景下对发动机的续航能力要求不一样,能源消耗要求不一样,启动速度要求不一样,意味着在不同的场景下需要找到能够解决不同问题的有效办法。
第二,特征工程是不断挖掘数据价值的过程。在这个过程中,要考虑不同的方法。如何对原始数据进行覆盖、清洗、弥补;如何找到异常值;如何在模型应用的时候保证应变量的调优以及如何做智能降位确保模型的量化能力。举例来说,在24个月的迭代后,我们的产品已经能够挖掘出1200多个有效基础维度特征,这可作为判断依据,帮助我们尽可能刻画一个人的生活数字信号。具备了特征工程和学习对象后,相当于有了学习书本,学习书本背后带给我们的就是相应的知识。
最后要解决的问题是:基于样本的模型有多可靠。这一定程度上取决于输入丰富程度。如果学习输入丰富,那需要做的事情就是如何变成一位好学生,充分感知到背后数据的信息和价值。
识别之后是计算
取名“Anubis大数据架构”,分四步。
△Anubis大数据架构
首先,判断数据的覆盖、数据的准确性、数据的维度和数据背后和问题之间的相关性。如果是线性相关的,就要符合线性相关的要求,需要对特征做相应的加工和处理。如果发现数据相关性并不是线性的,就需要考虑如何用非线性的数据函数描述问题。所有的数据函数,都可以称之为一个模型。说起模型,不同的问题需要有不同的解决方法和对策,所以,对于不同的数据源、不同的数据质量、不同的数据类型,在不一样的情况下,需要选择什么模型去刻画问题。
其次,选定模型后,逼近上限的过程中一定有调参,即模型迭代。
第三,需要通过大量数据帮助计算机更聪明。人可以通过少量数据进行推理,计算机不可能做少量数据推理,但大量数据推理是完全可以胜任的。 机器学习方法背后的支撑是大数据处理能力。所谓大数据处理,包括以什么样的方式从外部、从内部接收,之后做数据的持久化。
最后,如何做计算支持、服务支持。
识别、计算之后,开始“决策”
取名“D-AI机器学习模型”。
△D-AI机器学习模型
到这一步,基本就是在前两步的基础上,进行定量风险分析,得到一个连续的风险定价,并在此基础上提供与之相匹配的金融产品与服务,目前每一次决策的用时是8秒。
—— 完——