金融大数据风控建模实战(一)智能风控背景

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

提示:

这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、金融科技介绍

1.技术创新推动金融创新的巨大力量

阿里巴巴:支付宝每天通过类似银行的方式处理超过一百万笔交易,创造了287万直接和间接就业机会,为40多万家中小企业提供了3000-5000美元贷款。2010年使用芝麻信用评分代替传统信用评分来辅助中小企贷款。
将小微金融,普惠金融,智能金融列为重大转型方向

2.智能风控和评分卡

开发流程:
1.数据清洗
直接将缺失状态作为特征处理
2.预处理
3.特征工程
4.模型优化

二、机器学习介绍

1.概念

学习更高维度的规律,并辅助人们合理决策

2.分类

1.有监督
分类问题、回归问题
—线性回归模型、神经网络模型、支持向量机模型、决策树模型、随机森林模型、Xgboost、深度学习模型
需要提前准备好大量样本
2.无监督
—聚类分析、降维、关联规则分析
不需要目标变量的参与,而是在输入变量之间寻找规律
3.强化学习
特定场景下通过不断试错的方式进行自我更新并学习
需要输入数据集和反馈信息

三、评分卡模型介绍

1.申请评分卡

快速授信,授信质量。

在这里插入图片描述
1.1数据获取
反欺诈模型验证后,可认为得到的数据都是真实的。
1.2好坏样本定义
在这里插入图片描述
1.3观察期和表现期确定
关联到机器学习模型,就是在观察期收集训练样本x,在表现期收集预测目标y,得到完整的有监督训练集。
观察期窗口要能积累较多的建模数据(有足够的坏样本),同时考虑申请周期的影响。
表现期–账龄分析确定观察期,表现点确定好坏样本,八个月趋于平缓,实际中3-6个月。表现点后的坏样本可以过了模型的时效性,可以采用行为评分卡和催收评分卡进行补充。

1.4样本分层
考虑评分卡构建数量:业务理解分层,数据驱动分层
数据驱动:有监督–决策树:首先建立决策树分类模型,区分好坏用户;会看哥哥叶子结点,尤其是最初基层,对分类结果影响较大;最后分析各个叶子结点;最后分析叶子节点是否有现实意义,能否与业务结合,某个节点能否作为分层依据。
无监督–聚类分析,数据探索环节,通常与可视化结合,不断迭代尝试。

1.5数据清洗与预处理
删除缺失值比例高的变量和方差较小的变量,并进行统计性描述。
统计性描述中可以通过可视化观察是否存在异常值,算法异常值检测:箱线图,DBSCAN,LOF,随机森林

1.6特征工程
衡量客户是否会短时间内资金紧缺。
结合现有数据,找到可以衡量借款人的未来行为趋势。
状态评估指标:借款人基本信息
还款能力指标:
信用状态指标:个人征信信息、第三方信息
还款意愿指标:

大量变量衍生,提高模型的准确性。通过相乘或除实现,加减没有意义。
加减,多重共线性,模型优化时产生振荡,影响模型预测稳定性。

1.7模型训练与优化
机器学习模型训练集和测试集要求来自同一个样本总体

在这里插入图片描述

2.行为评分卡

借款人通过授信后进入贷中风险管理阶段。一般适用于动态风险评估,适用于信用卡的风险评估。
在这里插入图片描述

2.1数据获取
还款期间其他平台的还款情况、近期消费情况、银行流水、行为轨迹

2.2时间窗口
在这里插入图片描述
假设观察期时间窗口为六个月,在确定观察点后向前追溯借款人六个月的行为特征为建模样本。分析行为数据时,采用时间切片方法。时间窗口不宜过小。
假设表现期6个月,则可以在表现期内确定样本的好坏性质;如果是36个月,采用滚动建模和预测方法,得到整个换款周期的风险预测。

需要剔除的样本:
观察期部分:剔除还款期小于观察期的样本,提出在观察期就已经发生M3或M3+的样本。要预测的是可能出现M3/M3+的样本
表现期部分:剔除已发生预期但不到M3的样本,这些样本为不到表现期的样本,在观察期M1/M2逾期的不剔除。
明确建模预测目标,是违约还是逾期。

2.3特征工程
OA=2,OB=4,OC=6
平台内部数据:借款人真实逾期状况,实际还款率(本月还款总额/上月应还总额),设备指纹特征
第三方数据:统计其他平台借款申请,消费行为分析,运营商数据使用

3.催收评分卡

贷后管理
3.1分类
轻度、重度、核销(知识图谱失联修复)、资产清收

3.2催收策略
还款能力模型、还款意愿模型,决定催收策略

4.反欺诈模型

在审批阶段试图识别借款人的好坏。在申请评分卡之前现执行反欺诈评估,尽可能多规避欺诈客户。
4.1欺诈风险与信用风险比较
欺诈客户没有还款意愿,通过找到风控系统的漏洞或伪造信息获利。

4.2好坏样本定义
目标变量突出还款意愿区别
观察期时间窗口不能太长,欺诈用户一旦表现出逾期,不会偿还,好客户、坏客户、欺诈客户、不确定客户四种。

4.3欺诈主体分析
第一方、第二方、第三方

4.4反欺诈方法
身份校验:身份证名字与身份证号对应;手机:姓名、身份证号、手机;银行卡:姓名、身份证号、手机号、银行预留手机号。
身份校验通过后进行反欺诈规则与反欺诈模型评估。规则:命中即拒、组合命中拒绝。常用:黑名单信息、IP识别、虚假号码识别、设备指纹识别、多头信息、关系网中黑名单或多头信息等。有监督无监督:有监督方法欺诈样本少,用历史数据训练不能发现新的欺诈模型,无监督学习的聚类方法是很好的方式们可以发现新的欺诈模式,也可以发现类似的欺诈团伙。

先做特征工程,识别客户信息中不符合逻辑的地方。
APP登录信息、运营商信息、指标与正常值的偏离度(未来提高审核通过可能性,还款能力优异)、变量交叉验证(发现在不同特征组合下违背常理的情况)、多头借贷

特征工程完成后简单的规则可以通过专家经验总结得到,但是复杂的规则要经过模型训练得到。有了特征后可以建立评分卡模型或更复杂的Xgboost模型,给出欺诈分并设定阈值给予拒绝或通过的判断。

总结

例如:以上《python金融大数据风控建模实战》的阅读笔记(一),非原创内容。如涉及侵权立马删除。
  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《Python金融大数据风控建模实战:基于机器学习》是一本介绍如何使用Python进行金融大数据风险控制建模的实践指南。本书主要包括以下内容。 首先,本书详细介绍了使用Python进行金融大数据处理的基础知识。读者将了解如何使用Python进行数据清洗、特征工程以及数据可视化等操作。这些基础知识对于建立可靠的金融风险模型至关重要。 其次,本书介绍了机器学习在金融风控建模中的应用。读者将学习常用的机器学习算法,包括逻辑回归、决策树、随机森林等。同时,本书还介绍了如何使用交叉验证和网格搜索等技术来选择最佳的模型参数。 另外,本书还提供了一些实际案例,介绍了如何使用Python进行金融大数据风控建模实战经验。这些案例包括信用评级、欺诈检测等实际应用场景,读者可以通过实际案例来学习如何将机器学习算法应用于真实的金融风控问题。 最后,本书还介绍了一些工具和库,如pandas、numpy和scikit-learn等,这些工具和库能够帮助读者更高效地使用Python进行金融大数据风控建模。 总的来说,《Python金融大数据风控建模实战:基于机器学习》是一本非常实用的书籍,对于想要学习如何使用Python进行金融大数据风控建模的读者来说,具有很高的参考价值。通过阅读本书,读者可以了解到如何使用机器学习技术来解决金融风险问题,了解如何应用Python工具和库进行数据处理和模型建立,并通过实际案例来提高实践能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值