大数据+AI打造互联网金融反欺诈体系
今天分享的主题就是利用大数据和AI结合机器学习的方法在当前的技术环境下面在互联网金融的一个反欺诈架构,这次分享与线上风控相关。介绍一下中国当前风控环境、反欺诈形态、目前所用的数据和算法如何在反欺诈中应用,将从以下几个方面介绍。
国家政策对金融监管还是比较严格,每个国家应对的也大不相同,我国目前经济发展迅速,尤其互联网金融发展迅猛。目前GDP中消费支出占了较大的比例(与美国已经相差不大)消费已经成为巨大驱动力,比重越来越高,尤其淘宝起来很大作用。人们越来越趋向于网上购物,在这个过程中技术也有了飞速的发展,中国在这方面处于领先地位,中国的环境、服务、平台都非常稳健,这个我们的金融科技打下来非常坚实的基础。这个趋势不可逆转,虽然国家政策表面上收紧,但是还有很多正面意义,互联网金融近几年发展也确实存在很多乱象,如暴利、恶意催收。政府收紧其实是一个洗牌过程,如果你没有技术力量,靠以前这种野蛮手段在新的监管环境你就很难生存。真正依靠数据、科技去驱动,你就可以很好地应对政策。
美国是个人消费实力很强的一个国家,我们以它为标杆。图中蓝线代表中国,红线代表美国。预测中国短期个人贷款到2020年达10万亿元,可见市场庞大。个人消费不仅仅靠大银行,还要靠其他小型机构;因为大银行本身这种特点(客群优质),很难下放到下层服务。在信用风险中欺诈风险在我国占的比例非常高,数额也比较大,经常是有组织的欺诈,如做“网络黑产”有百万级人员,市场规模为千亿级,很多公司被迫无法经营,据估计,互联网金融一半以上的坏账风险来自欺诈风险。对比美国这方面比例就相对小的很多,如一个千亿级个人消费,中能达20-30亿美元,美国则只有几千万美元。原因有一点是美国征信做的比较好,几乎覆盖所有成年人。反欺诈就是提高欺诈的成本。
接下来介绍下不同领域的金融欺诈类型,如银行业钓鱼网站,木马病毒,做一个假的网站;电商行业促销让利大部分便宜了黄牛党或竞争对手—薅羊毛,与此同时退单电信诈骗,刷评,协议支付面临的银行卡盗刷等问题也是常有发生;消费信贷中借款人冒用身份、老赖、多平台借款、黑中介、企业经营异常贷后无法跟踪等问题。
用技术去做反欺诈都是有针对性的,在进行反欺诈时需要知道欺诈的类型,下面是欺诈分类,有第一方欺诈,第三方欺诈等。第三方欺诈就是欺诈分子通过非法途径获取他人身份进行骗贷等欺诈行为;线下欺诈是通过信用卡偷盗,盗取其他用户账户资金的行为或者通过伪造申请材料,线下面对面申请的欺诈行为;申请欺诈是以欺诈为目的,申请个人信贷账户以骗取银行或P2P平台等机构资金的行为。可细分为虚假身份申请和虚假资料申请(这在反欺诈中很重要,将坏人挡于门外);交易欺诈对数据实时性比较高。欺诈风险是恶意的,自始至终就是不想还贷,信用风险更多的是一种还款意愿或还款能力导致无法还款。信用风险主要是看征信、数据,建模型进行处理,计算欺诈概率,而欺诈是要分清黑白。
接下来我们讲一下大数据+AI的反欺诈,风控需要对监管的改变,市场的形态我们都要时常关注。我们虽然不是银行但是我很多事都是按银行来做,自己做压力测试,如果变坏我们能否承受得住,而且我们的反应一定要快。金融危机发生很快根本不会给你思考的时间,如果你去现设计或者反应可能会造成很大的损失。08年危机反应快的银行会及时剥离坏的资产,后面有机会我们会讲如何在经济危机下处理我们的资产。对于大数据和AI来说,我们并不陌生,任何新技术出来有人会质疑,如数据早就有了只是数据量大了点。最近流行的AI算法其实一点也不新,早就有了只是目前有一定的突破、发展快、效率比较高、得到广泛的应用,最近消费水平的提升与技术的成熟是分不开的。大数据在美国有种说法叫另类数据。美国征信数据很丰富,它属于强金融数据,比如我在哪里借了钱、还多少、利率是多少、逾期多少等,这些数据对信贷风险评估是非常有用的,对欺诈风险评估也是很有用的。但在中国这种数据很多人没有或者缺失不完整,因此补充的数据就非常有效,如有些推广数据、你有那些银行账户、安装的APP、消费习惯、年龄段等都与他的资产和收入有关,这是非常有用的。比如手机可以判断他是一个正常人,不是专门的欺诈。大数据不是结构化的,但是征信数据是结构化的(要求严格),因此这类数据分析是很容易的。机器学习提供了很多方法,如统计方法等是非常有效的。美国每个人都有一个信用评分,这个评分准确度非常高,数据结构化,采用逻辑回归方法 。在中国你有这种高维的、稀疏的、数据准确度可能会有问题,但是利用机器学习的方法也可以达到很好的精度。
大数据是多维的,例如在海外,不同的国家有不同的数据,如在巴西一个项目,他们有税务的数据,这个是公开的,也能很好地评估你的收入;还有些国家有电信的数据,如东南亚分期付款手机业务,这不属于金融数据,这方面包含数据有很多(地址、户籍,手机是什么)。手机型号用的网络进行比较,位置指标,这些都是很好的指标。提取些规律和纬度,这些在建模时都是很有效的。
我们常用的一些反欺诈的数据和方法有:(1)身份验证,这个是非常重要的,身份验证在中国很伟大,如中国解决了第三方欺诈的问题。因为中国手机实名认证,有些时候你很难去做假,这样我们可以交叉验证,这样就提高了欺诈的成本;(2)法院/征信信息,内部黑名单,有公司会专门整理这些信息,可以公开给我们使用。用户信息整合,通过各公司间信息碰撞,规则匹配,如果发现过去欺诈行为就不给他提供金融服务;(3)模型,评估用户行为,进行规则评判他这种行为是不是欺诈,如何减少错杀准确抓住欺诈人员。
下面是欺诈与未知欺诈甄别问题,主要是监督学习和非监督学习。监督学习是知道一个人以前欺诈(父母信息不对,电话号码有误等),我们就会打上标签,历史数据就会训练我们的模型,统计模型所用数据大都都是有标签的;非监督学习也是经常使用的,因为欺诈是经常改变的或不同特征的,我并不知道他是否是欺诈,我们用关联网络,每个人间有联系,这种网络快速发展;还有一种是两者结合起来,利用权重评估。
下面是反欺诈常用算法,比如逻辑回归,并不是就不用了,因为它的解释性非常好。机器学习很多时候是黑盒子,中间过程无法获取,而银行很少用机器学习的方法,因为监管就无法通过(比如它要了解你的资产质量,但是它连你怎么评估都不清楚,它不会认可你的结果),因此很多大银行都会用逻辑回归。而机器学习存在过拟合现象,很难匹配一个度。因此在风控行业经验非常重要,有一句老话讲“风控是技术和艺术的结合”,这绝对不是纯技术问题,单纯靠技术是会存在风险的。
复杂网络这一块用的非常多,很多公司都有开发,只是网的大小问题,人都是有关系的,无论是微信或是Facebook等的人都是通过网络联系在一起的。而且“物以类聚,人以群分”,欺诈团伙因素,比如不一定你是欺诈,但是和欺诈有关系的人风险会很高。如通话记录、短息记录、住址等利用模糊匹配。提一点在欺诈模型评估时主要用到准确率和召回率指标。
接下来讲一下我们线上的一个反欺诈系统框架,下图简化了实际反欺诈系统。介绍了基本流程,首先是身份的交叉验证,证明你是你。不光是银行卡、手机、身份证交叉认证,还有你的照片、活体认证(你在上面动来动去);内部数据和外部数据有一个决策引擎,这里面存储了各种规则;接下就是一个评分分析系统,这些数据有手机的行为数据也有其他外部数据(不可控,最好有个稳定模型进行备份);除此之外还有个预警系统,对我们的模型进行监管,需要对实时数据进行一些评估,这一点也是非常重要的。
下面是欺诈模型建模过程,底层是基础数据的数据仓库将所有外部数据、内部数据、不同来源的数据搜集起来。中间层是如何提取一些特征,将多维的、离散的数据进行整合。模型是金字塔的顶端,一个好的模型往往是非常困难的,社会上也很缺乏这种人才。
闭环系统也就是打标签,比如我们公司就有专门的反欺诈的专员不仅对已有的客户,也会追踪一些论团、微信群或者黑产群、戒赌吧,了解他们的动态,搜集数据,这些会反馈在我们的模型上。及时获取最新欺诈手段或技术非常重要。
对未来一点展望,欺诈永远不会停止、不会消失,尤其在中国征信没有完全建立,人口多,社会缺乏金融知识,对征信了解很少,收入差距比较大的环境下,欺诈现象会长期存在,这在风控里面是考虑的一个重要部分。征信体系的建立和完善,虽然这个过程会很长;目前第三方反欺诈公司推出的服务产品有同质化的特点,预计行业发展到后期会竞争加剧,最终会形成几家专业化的行业巨头。(文字来源:今日头条)