李宗纯图机器学习在度小满风控中的应用
分享嘉宾:李宗纯 度小满 AI产品经理
编辑整理:高倩 重庆理工大学
出品平台:DataFunTalk
导读: 本文主要介绍度小满的超大规模图平台,以及它在真实金融风控业务中的应用。其中会包括一些应用方法和案例,希望能为大家在图机器学习落地产品化方面提供一些参考。
今天的分享主要有以下四部分:
- 相关背景介绍
- 度小满超大规模图平台 Dxm Eros 功能
- Dxm Eros 应用
- 总结与展望
01 相关背景介绍
1. 金融科技发展趋势
金融科技发展趋势可以分成以下三个阶段:
第一阶段:金融信息化阶段(1986年之前)
金融行业完成初步信息化,通过传统IT技术实现办公电子化,自动化的过程。
第二阶段:互联网金融阶段(1987年-2009年)
互联网大规模扩张,市场上萌生大量信息科技公司,通过互联网实现信息收集、共享和业务融合,实现金融业务的互联互通。
第三阶段:金融科技深度融合阶段(2010年至今)
大数据、云计算、人工智能及区块链等新技术为传统金融带来了变革,催生了新的金融行为。比如大数据征信以及智能风控等。
2. 金融风控技术演进
常见的金融风险大致可分为两个类型:可防可控风险,难防难控风险。比如用户违约风险,以及用户收入降低导致购买力下降风险,我们统称信用风险。黑产,中介,团伙欺诈等属于欺诈风险。信用风险,欺诈风险以及操作风险,这些都是可以通过各类的不同等级的金融风控技术来极大程度地降低的。
金融风控技术的演进可以基于所需要处理的数据的维度而抽象成从点到线再到面:是从人工审核到规则,到算法模型再到图谱;对应的技术分别是从数据分析到机器学习再到知识图谱。过程如下:
第一阶段-审核 :主要依赖对信息的人工审核。但身份证、手机号码、银行流水等材料的伪造成本很低,金融机构需投入大量人力审核信息主体的身份及材料的真实性
第二阶段-规则 :基于数据分析而制定的各种策略和规则:通过收集大量多样化的数据,如第三方信息等对信息的真实性进行交叉验证。比传统的人工审核具有更强的反欺诈能力。但由于数据来源多、规模日益庞大,如何整合多元异构数据源,利用已有数据交叉验证成为新挑战
第三阶段-模型 :用机器学习模型,将多源异构的大数据整合成机器可以理解的知识,通过机器学习模型来判断节点的好与坏
第四阶段-知识图谱 :将单点身份和单条链路的资料转换成对于面的形式的风险检测,不仅关注节点个体本身,而是更加关注个体之间的关系,从而实现欺诈的识别和防御。
3. 图在金融风控领域应用
在传统的金融企业中,图技术并没有被大规模的应用。这些企业仍然使用了关系型数据去进行数据存储,进行的风控也仅仅从个体本身来出发去分析个体之间的差异。但由于信息伪造成本极低,导致欺诈风险的欺诈行为高发且难防。其实,他们所拥有的这些数据隐含着海量的挖掘价值,而传统的金融企业却无从下手,所以越来越多的金融科技公司开始着手对图技术进行研究与应用,使用图数据库去存储数据,并且利用图分析算法来甄别团伙欺诈行为,这就极大程度地提高了数据存储和数据挖掘的能力,也可以为金融风控业务提供实时有效的风险信息。
02 Dxm Eros 功能
1. 图平台 Eros 框架
上图是度小满超大规模图平台Eros的框架示意图。
底层基础设施 :海量的关联数据池,异构计算集群资源,大规模高性能数据库。
图数据库 :存储各类的关系型的数据,如企业和人和证件间的关系等。
平台能力 :满足各方向用户不同的应用需求和应用场景下的风控图可视化平台、数据融合实验平台、可调整模型结构的快速涂模型实验的平台、基础算法模型库(经典的图算法图模型、自研的图模型等)。
Eros平台主要应用在金融信贷的全链路场景当中,从一开始的智能获客到智能反欺诈,智能风控和贷后审核等。
2. 图存储模块
图数据库用于数据存储管理,主要就是将非结构化数据存储并管理起来。在传统的关系型数据库当中,数据关联非常不直观,比如对于用户提交的数据的存储,往往需要通过用户表、进件表、企业表等多个映射的表单来进行存储,最后用了很多个关系表来代表一个非常简单的数据结构,这很难适应图模型的训练和查询的要求。相较于关系型数据库,图数据库是对关系型数据库功能的拓展,它真正关注的是个体与个体之间的关系,它的结构是由顶点和边所组成的,它支持的图结构也更加灵活。度小满的图数据库主要具备以下几点优势:
- 存储规模 :支持千亿节点千亿边的超大图存储,具有可扩展可伸缩的存储和计算能力;
- 高性能 :毫秒级响应,二度查询50ms以下,可以说是业界比较领先的一个水平;
- 查询分析一体化 :同时支持同查询和图分析算法;
- 简单易用的一站式图平台 :良好的可视化界面,助力用户快速查询。
3. 图分析模块
第二个模块是图分析算法模块。度小满的Eros平台上支持了各类的图分析算法以及图表式学习算法,除了一些顶点类,路径类以及社团类的经典的图分析和图表示学习算法,还有根据最新的研究成果支持的图模型和图算法,以及自研的算法。例如,对于图分析算法,我们可以将其按照顶点、边、社团来进行划分,分别支持各类图分析算法。对于图表示学习,也支持基于因子分解、随机游走和深度学习等方法的图算法。
4. 图建模
第三个模块是图建模。由于很多图模型算法比较新,利用图技术来进行建模有一定的门槛,而很多数据科学家也希望能够应用我们图模型产生的数据、应用我们图模型的能力。所以我们为他们打造了一个自动图建模功能-AutoGraph。AutoGraph可以在无人工参与的情况下,自动生产直推式图结构嵌入特征,并通过增量式训练和异构图算法支持,增加对最新数据和复杂图数据的覆盖。AutoGraph可以提供端到端的自动图建模能力,弥补技术与业务之间的壁垒,让不懂技术的同学也可以利用图技术建模,从而应用在贷前贷中风控模型中和贷后催收与审核中。
5. 可视化模块
最后一个模块图平台可视化模块。左图是从平台上截取的一个图的layout。除了在宏观上查看一个图网络结构、点边分布和统计信息之外,还为用户提供了微观分析功能,如图N度邻居查询、关键信息展示、基于条件的过滤与统计功能等,可以辅助业务分析。同时,也包含基础的图管理功能:
- 图导入导出:用户可以自定义要导入的数据、任务的启停时间和周期等;也可以从异构大图中导出子图;
- 实例监控管理:查看数据分布以及健康性;
- 训练管理:选择模型和数据进行训练。
除此之外,还从节点、路径、社团不同级别分别提供了可视化功能,满足各类用户的使用需求。比如可疑节点分析、关系可视化、路径标记和社团发现等,可以分别应用于反欺诈、审核、反洗钱等环节。
03 Dxm Eros 应用
作为一个产品,它的设计是从用户需求出发的。作为一站式超大规模的图平台,它的应用可以从贷前到贷中一直贯穿到贷后整个流程,所以它的用户也可以覆盖到算法、策略、信审以及反洗钱等不同角色不同团队。对于不同团队,不同人群,他们的应用场景和应用需求,产品的设计需要侧重不同方面。
- 对于 算法 同学,他们更多的使用场景是图建模,图挖掘。他们更关心的是快速的进行图实验,并且快速、直观的得到实验结果。所以我们的产品就可以为其提供自动的数据预处理,自动的特征工程,自动建模调参,自动部署上线等功能。
- 对于 策略 的同学,他们使用这个平台做反欺诈分析,所以他们希望能够在这个平台查询某一个节点的风险是怎样的一个等级。为他们提供的是可疑节点标记和可疑社团标记。
- 对于 信审 审核同学,他们既往的审核工作往往是通过在互联网各种平台上进行多个轮次的搜索,过程繁琐且不直观。所以图平台主要是提升他们的工作效率,使他们查询和审核的过程更加快速,更加直观,更加便捷。为他们提供的功能包括人企关联查询,企业风险提示和特殊关系提示等;
- 对于 反洗钱 团队,我们希望为他们在追踪资金链路以及关键节点当中提供一些帮助,辅助他们的工作提升效率。所以也相应的为他们推关键路径分析和关键节点识别的一些功能。
1. 智能图挖掘
智能图挖掘方便算法同学快速地进行各类实验并且查看结果这个功能,只需要用户选择需要使用的数据,就可以自动实现图挖掘。这赋能了很多不熟悉技术,不熟悉算法的同学,让他们也可以将图模型应用到业务上。要做到智能图建模图挖掘,只需要这里所展示的五个步骤:
Step1:数据整合/创建数据集
这个步骤实现了从原始的raw-data到数据整合,数据压缩以及最后训练使用的二进制文件生产的全流程。对用户来说只需要填入不同月份的XY即可,无需关注和图相关的任何细节。在数据阶段支持使用额外的填充特征来丰富数据图的信息量,提升模型训练效果。
Step2:自定义模型与训练脚本
针对不同技术背景,不同层级的用户推出了两种不同方案。对于一些不太关心或者不熟悉最新图模型用户,他们可以直接选择系统内已经有的模型,对于算法专家,他们可以自定义上传他们所需要训练的模型。在这一个步骤,平台也支持不同的模型和不同训练脚本的任意组合,灵活度非常高。
Step3&4:一键训练&调优
平台支持一键训练,用户可以自己手动设置这些关键参数,也可以直接使用平台已经内置好的一个Auto模式一键训练模型平台。在这个过程当中,会根据既往的一些经验和策略,自动的选择合适的模型,也可以自动地根据规模去调整运行申请的资源量,模型训练好后,也会进一步进行自动调优,使模型调到最优。
Step5:一键产出OOT打分
用户只需要配置他们所需要打分的月份或数据,就可以一键产出打分结果。
下面是智能图挖掘的两个案例。
案例一:征信数据
基于征信数据的图模型充分挖掘了用户在空间、时间上的特征,以及用户和企业之间的关联关系,其中用户节点有10亿+,包含了用户的基础风险特征,征信风险特征等;还包括了一些公司节点和位置节点。区别于传统的关联网络,图神经网络是基于异构图以及全网用户的实时更新的风险特征属性来建立的一个端到端的深度实时模型,而传统的关联网络往往只是依赖于节点之间关联的紧密程度。智能图挖掘帮助我们在复杂的模型自动地寻找高级高阶的组合特征,而不仅仅是依赖于专家的一些经验来加工有限的特征。
案例二:风控模型
基于风控数据的图子模型,这个模型适用于信贷风险分析,判断用户的风险。模型引入了实体和实体的关系,包括人和人、人和公司之间的关系等。具有12亿顶点和80亿边,其中每个人又选择了94维以征信为主的特征。这个模型的网络结构设计了双层的GraphSAGE和GAT融合的模型。利用智能图挖掘的功能之后,整体的模型效果对于风控的AB卡有1%以上的效果提升。
2. 智能反欺诈
面向策略同学所打造的智能反欺诈功能,主要包含了图可视化和图分析功能。当用户输入需要查询的节点信息后,可以基于过滤条件自定义查询相关节点以及关系信息。在这个图可视化的区域,会呈现宏观上的信息,如这个节点所处的社团的点边分布等,除此之外还会再细粒度地展示出部分关键信息,这个关键信息可以辅助策略进行一些反欺诈分析。这些关键信息包括社团当中的各个节点的分层信息、社团总申请数量、社团组总欺诈率、违约率等。
除了上述的统计信息之外,我们也基于一致性检验技术,社团发现的技术,为策略同学提供了一键式的风险检测功能。这个功能可以同时检测个人欺诈和团购团伙欺诈。
对于个人欺诈行为,我们通过度中心性、紧密中心性、介数中心度及特征向量中心等指标,分析各节点的信息度量,判定与其关联的人是否存在于黑名单中,或是根据一致性分析判断三角关系是否成立,来为其欺诈风险进行分级。
与个人欺诈行为相比,团伙欺诈事件发生的频率更高,团伙往往具有明确的分工和计划,熟悉目标平台的各项业务流程,欺诈手段是非常复杂且多变的。对于团伙欺诈,我们的平台主要是提供对关键节点、关键路径和关键社区发现和标记的功能。
- 关键节点 :星状节点。金融领域较为常见的一个羊毛党的网络结构,它极有可能是一个人通过群控很多人从而实现团伙欺诈。
- 关键路径 :链状路径。团伙欺诈时为了节省成本,往往多数人共用一套身份信息(如身份证、手机号、住址、联系人等);一个节点连接多个社区且社区内人群多数信贷不良,那么这个路径上的团伙很可能是黑产或黑中介。
- 关键社区 :完全子图。任意两点都相连的图具有较高的风险性。这种网络内的人相互都有关联,这种也是目前很容易识别的欺诈团伙。
除了通过以上方法排查出可疑团体外,还可借助关联图谱的可视化分析功能,如节点查询、关系扩散、节点pagerank值计算、最短路径分析、图谱信息统计等功能,辅助我们进行分析和审核。
3. 智能反洗钱
洗钱作为一种犯罪行为,对金融机构和国家安全造成越来越严重的威胁。
传统的反洗钱的形式,主要是通过大额可疑交易和黑名单用户这两个规则来设计。当系统检测出有大额可疑交易,或发起交易的用户是存在于黑名单当中的,就会根据规则筛选出这些信息,送入人工进行二次审核。但利用图技术之后,我们可以利用一些关键交易追踪,交易结构识别和资金路径分析功能,对这些信息进行及时的预测和发现,比如一些频繁汇入汇出,集中汇入汇出交易,很可能存在较高洗钱风险。对于存在风险的交易,平台会实时标记出来,帮助反洗钱团队实时展示关键交易路径以及交易结构。
4. 智能审核
在人工审核流程中,用户需要自己准备好材料,亲自前往线下网点提交材料。审核专员则需要手动整理材料,完成录入,并通过多轮搜索或电话回访,来验证用户身份及用户提交材料的真实性。待材料整理录入完成,再提交上级,等待审批意见下来再联系用户,让用户回到线下网点继续办理后续的手续。这样的审核流程人工成本非常高,且极易出错,搜索过程繁琐且不直观,同时用户等待的时间也非常长,体验很差。
利用知识图谱技术,融合OCR以及NLP技术,平台上可以自动实现进件秒批。当用户在手机端提交材料, OCR技术将会对文字信息进行检测、识别以及结构化提取,同时进行质量检测和篡改检测。接着利用NLP的技术进行文本分词、分类和关键词识别。最后送入知识图谱,完成信息抽取和信息可视化,最终实现自动秒批。
比如对于企业的风险评估,我们会根据企业的信息去构建一个企业风险评估的体系,在平台上会提示企业所处的风险等级。信审人员可以在平台上实时去查询企业投资或涉诉的信息,包括企业最终控制人等,不需要再跳转至其他平台去进行多轮次的搜索。它能够提升审核的效率,降低人工成本。
对于每一个进件,平台都为它提供三层网络的搜索可视化:首先关联到提交证件里的提交人,提交人相关的空间时序、征信风险等信息都会展示出来;其次会关联到提交人所关联的企业信息;第三,与跟这个企业存在关联的二度关联人的信息也可以在平台当中查询得出。
04 总结与展望
总体来说,图机器学习在金融风控中的应用非常广泛,它可以贯穿从贷前、贷中到贷后整个流程。并且我们可以通过可视化的工具来落地图机器学习的应用,为不同类型的用户在不同场景下的不同需求提供不同的的功能。
未来我们希望能够持续地降低图学习的门槛,提供更丰富的可视化工具,提出更通用的行业解决方案,让越来越多的人可以应用图技术去做模型挖掘。
05 精彩问答
Q:度小满图数据库是根据开源数据库改造的么?
A:是的。
Q:社区的客户分层是什么意思?
A:社区分层是指通过各类风控指标,用户风控属性的一些评估所给到用户的一个不同的分层,或者是平台上给到企业的不同分层,比如某个企业涉诉的情况很多,或者它的上下游企业出现过破产倒闭这些行为,它的风险等级就会更高,我们可能会利用红色突出展示。
Q:关联的人或企业数据,没有授权,你们是如何做到融合的?
A:度小满用的数据都是已经授权的,不会使用没有授权的。
Q:人与人之间的数据是怎么获得的,可以利用来做一个研究的共享吗?
A:平台用的比较多的是人与企业和企业与企业之间的关系
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek/post/%E4%BA%92%E8%81%94%E7%BD%91/%E6%9D%8E%E5%AE%97%E7%BA%AF%E5%9B%BE%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9C%A8%E5%BA%A6%E5%B0%8F%E6%BB%A1%E9%A3%8E%E6%8E%A7%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com