一、方案简介
伴随欺诈手段和工具的多样化,金融欺诈呈现组织化和团伙化的新趋势。传统反欺诈主要依靠专家规则,但像身份证号、银行卡流水这些东西其实伪造成本很低,对于群体性的、大批量的欺诈并没有一个很好的管控手段。因此,欺诈风控策略理念和思路需要提升至更新、更深入的阶段。 针对上述问题,本方案基于Xgboost模型,从用户相互关联和影响的视角,提出通用的社交网络特征挖掘方法,探索满足风控反欺诈领域需求的,可拓展、高效的机器学习应用方案,从而帮助更好地识别欺诈用户。
二、数据介绍
本方案建模数据来源于信也科技公司(数据开放下载网址:dgraph.xinye.com)。数据主要包括两部分:第一部分为用户的属性数据,包括性别、年龄和职业等信息;第二部分为一个脱敏的全连通的社交网络有向动态图,分别抽样于信也科技公司不同业务时间段的数据。 在社交网络图数据中,节点代表信也科技的注册用户,从节点A指向节点B的有向边代表用户A将用户B填为他的紧急联系人。图中的边有不同的类型,代表了对紧急联系人的不同分类。图中的边上带有创建日期信息,边的创建日期分别脱敏成从1开始的正整数,时间单位为天。
三、建模说明
四、社交网络特征挖掘
五、方案设计
模块设计 | 训练时间 | 得分(AUC) |
Baseline + Xgboost(RandomizedSearchCV) | 14min 54s | 75.63 |
Baseline + 社交网络特征挖掘 + Xgboost(RandomizedSearchCV) | 18min 45s | 81.85 |
Baseline + 社交网络特征挖掘 + Xgboost(Flaml) | 5min 12s | 82.36 |
Baseline + 社交网络特征挖掘 + Lightgbm(5-Fold) | 3min 48s | 81.91 |
Baseline + 社交网络特征挖掘 + Xgboost(5-Fold) | 1min 23s | 82.45 |
六、方案硬件
七、结果展示
八、价值影响与总结
1. 针对社交网络数据,给出一套通用的数据挖掘思路和方法,可显著提升模型的识别精度效果。 2. 基于Xgboost分类器,设计高效可行的模型训练与推理模块,在大数据量的场景下具有训练时间短和精度较高的特点,可快速响应业务场景的需求,从而加速实现项目的迭代更新。