蚂蚁信贷图风控实践

人工智能 算法
本文主要介绍图近线、在线、离线风控体系,以及图分析、图计算,在蚂蚁消费、网商信贷业务上的应用。图风控技术规模化的业务落地,一开始我们只是简单的尝试,效率比较低,因为信贷场景较为严谨,上线需要进行离线测算、旁路验证。这就需要保证离线在线的数据源头一致、计算语义一致,实现图仿真功能。否则只能通过离线表JOIN的方式进行构图,很难支持3-6个月的图回测。

一、信贷图风控业务背景及案例

首先简单介绍我们的业务场景。

1、业务背景

我们做的信贷图风控主要用于反骗贷和反套现的防控:

  • 骗贷是指黑产恶意骗取贷款,无还款意愿。这种情况导致了较高的资金风险,业界来看占整体逾期贷款的30%-40%左右。
  • 套现是指用户通过虚假的交易场景,将信贷额度套取成现金。这种行为违反了信用卡、花呗等消费贷的使用规范,无法管控资金使用范围,另外也容易造成多头借贷,引起金融风险。

常见的套现骗贷手法包括:

  • 扫码模式:线下店铺开通收款码,保存本地或到店进行扫码的方式,让套现人使用花呗支付,进行套现。
  • 淘宝模式:中介在网上开店,上架商品,套现人使用花呗支付完成虚拟网购,从而信用额度。
  • 预下单模式:使用三方APP,下单后不支付,然后告诉套现人三方账号密码,由套现人登录后使用花呗支付,完成套现。

图片

基于信贷的业务特色,我们设计了事前、事中到事后的全面防控,各环节的主要内容为:

  • 事前:提前感知、认知风险。包括对商户进行风险分析、对用户进行风险等级评级,这部分工作会用到近线的图分析功能。
  • 事中:当用户申请贷款、或要用贷款去付钱时,基于交易请求实时分析和计算,进行风险策略和模型应用及图谱的交叉验证。
  • 事后:对信贷业务进行全面的风险分析,如分析资金使用、套现可能性、挖掘团伙。

2、业务应用全局视角

我们基于事前、事中、事后的业务体系,设计了对应的技术框架。

图片

  • 事前:T+1调度进行图跑批计算、由事件驱动的近线计算。
  • 事中:基于请求在线实时计算,使用了图数据库的能力,保证查询性能。
  • 事后:近线的消息监控、T+1的全量分析,以及交互式图分析。

上述模块会用到的图技术包括:图的多度关系聚合特征(Traversal&Aggregate)、模式匹配(Pattern Matching)、图社区检测算法(Community Detection)、图学习、图推理等。

3、花呗反套现案例

下面我们通过花呗反套现的案例来说明事后和事中的防控。

图片

事后

由于风控场景的Y标稀缺,如果依赖人工专家打标,对于专家未识别到的套现模式会出现无法覆盖的情况。所以我们通过T+1的离线数据和实时数据开发了风险大图,基于“近朱者赤近墨者黑”的思想,将Pattern Matching中识别到的黑、灰种子,进一步在图上扩散传播,从识别更多风险用户,并将风险由单点转换为社团。

事中

传统事中实时风控计算,多使用Flink产出统计型特征,它无法刻画多度关系。另外,如果图Pattern全部依赖专家定义存在效率和覆盖度的问题。所以我们使用了在线子图,包括买家子图、卖家子图、买卖家连通子图,作为神经网络的输入并在线打分,从而进行实时的防控。

二、图风控规模化落地

1、微贷图平台

图片

图风控技术规模化的业务落地,一开始我们只是简单的尝试,效率比较低,因为信贷场景较为严谨,上线需要进行离线测算、旁路验证。这就需要保证离线在线的数据源头一致、计算语义一致,实现图仿真功能。否则只能通过离线表JOIN的方式进行构图,很难支持3-6个月的图回测。

我们通过技术验证后,沉淀了一套能力,包括:

  • 图建模:离线、近线、在线的图资产统一。
  • 图交互式分析:专家使用图交互式分析进行研判。
  • 图仿真回测:基于分析的case进行3-6个月的图仿真回测。
  • 图计算服务上线:图特征和图算子的一键发布上线。

统一图资产在分析,仿真和上线的语义一致、三线一体,保证了图风控规模化的效率。

2、规模化效率瓶颈

图片

做完规模化后,我们发现业务流程前面的模块都是离线T+1跑批、或基于事件触发,都是自动的。只有最后这一步需要人的分析,这个环节对人工的依赖,阻碍的图的大规模应用,所以我们下一步的工作是自动挖掘风险。

三、子图挖掘

图片

我们之前的业务分析测算,都基于专家给出了明确的风险模式后进行处置,但其实这样的流程周期很长,效率较低。所以我们目前正在自动挖掘风险模式,然后推荐给专家分析。

1、总体技术方案

图片

整体技术方案分为以下几步:

  • 基于离线T+1及实时数据构建底图。
  • 计算图中每个节点的表征向量,然后计算p-value值及各种业务指标
  • 筛选节点,并基于种子节点进行扩散,获得重要风险子图
  • 在子图中进行风险模式的挖掘,获得风险模式(Pattern)的候选集,并进行回测
  • 回测结果符合预期指标的风险模式,交由业务方进行交互分析,并决定是否采用上线
  • 通过这一套流程,我们把挖掘风险模式,结合算法和算力做到了自动化。

在这套流程中,有两个比较大的挑战:

  • 信息混杂问题:底图数据庞大,噪声较多。
  • 算力复杂问题:子图同构算法复杂度为指数级。

2、信息混杂问题

图片

对于信息混杂问题,当我们基于原始大图进行挖掘时,首先图的规模比较大,难以进行挖掘。另外,图中有许多噪音,比如我们每天购买咖啡、早餐,当我们基于频繁度进行挖掘时,这种模式很容易被挖掘出来,但没有提供风险信息,应该被剔除。

我们的做法是基于完整的底图,计算节点表征向量。然后根据节点p-value和业务指标,计算节点的重要度,最后裁剪低于一点重要度的节点,我们目前通常挖掘的图在10亿规模左右。这样做可以剔除噪声,并且提升挖掘的效率。

3、算力复杂问题

算力复杂度主要来源于组合爆炸,比如某种边的类型只有10万条,但它对应的pattern可能有11 亿个,而我们的挖掘,每增加一度都需要反复验证对应的业务指标,所以计算量非常大。

图片

对于这个问题,我们有两个解决办法。第一是基于业务语义,对不合理的pattern进行剪枝。这种从业务应用的角度对图进行剪枝,得到了比较好的效果。第二,从技术的角度,引入图的外部存储,缓解了大规模图挖掘的内存压力。

4、子图自同构问题

图片

子图自同构,原本需要遍历所有子图进行对比,是一个np问题,比较难找到最优解。我们与高校合作,使用了数学的思路,将子图映射成一个数学函数,然后通过数学函数可以比较快速的对比。这个方法不能解决所有问题,但是能解决大部分问题。我们基于这个思路进行了分布式的实现,从而更好地做图挖掘,以及图模式的匹配。

四、回顾总结

图片

我们的信贷图风控建设从2018年开始,基于专家总结的风险模式,转换成图模式匹配进行风险挖掘,它的特点是准确率高,但风险覆盖度比较低。所以在2019年我们做了团伙算法,用于解决聚集性风险。2020年,我们从图的静态切面,分析图的当前信息,推进到分析图的时序演进状态,进一步捕捉团伙的发展以及变化的信息。21年,我们做了图平台规模化的落地,实现三线一体。22、23年,我们的主要工作是做图的自动挖掘和分析。

五、问答环节

Q1. 刚刚提到事中阶段会在线进行拦截,时延是120毫秒,线上用了什么样算法,还是用专家系统进行模式匹配?怎么做到120毫秒?

A:模式匹配和团伙发现是事后做的,社团的计算需要几十秒。事中主要是在图数据库中查了买家子图、卖家子图、买家卖家连通子图,主要做Traversal&Aggregate,进行表征向量抽取,然后进行深度学习模型的打分,这个过程大概消耗20毫秒左右。当然我们也在风控链路上做了许多优化,整套流程大概在70-80毫秒。

Q2. 20毫秒的查询会涉及到几度邻居查询?

A:买家和卖家子图往外扩两度,买家卖家连通子图则是各扩两度,并且各扩充两度后可以连通。

Q3. 事中查询时,图的切片如何选取?

A:图是有多个线程持续更新写入数据的,当有访问请求时,实时对被访问节点进行Traversal&Aggregate。

Q4. 图中节点表征的更新频率是什么?

A:图节点的表征是实时抽取计算的。

Q5. 子图挖掘整体方案中,蓝色模块的评估任务,是自动化评估还是有业务专家介入评估?

A:这部分的评估是自动化评估,我们会基于风险的候选集,在3-6个月的图上进行回测,然后根据历史数据上匹配到的pattern,计算用户、商户的各种风险及业务指标,然后根据业务给出的口径进行自动化的评估。

责任编辑:姜华 来源: DataFunTalk
相关推荐

2023-05-29 08:04:08

2023-06-06 11:49:24

2023-07-31 07:43:29

保险反欺诈前沿技术

2023-09-04 07:03:35

2020-11-04 09:41:07

大数据信贷技术

2023-05-31 07:22:45

2017-02-28 14:53:13

2020-12-30 13:15:59

大数据银行疫情

2019-05-07 16:30:18

TigerGraph数据库金融风控

2017-02-24 19:45:58

2022-08-19 11:58:52

风控技术

2021-03-22 11:49:19

架构运维技术

2018-09-05 13:00:09

2017-03-27 08:56:15

支付风控模型

2024-01-19 13:28:42

风控数字时代

2017-03-01 10:50:45

2017-04-21 14:04:50

互联网

2023-11-01 19:05:18

云栖大会蚂蚁集团AI风控引擎

2022-08-12 15:08:56

智能风控

2018-08-16 17:18:49

数据处理
点赞
收藏

51CTO技术栈公众号