风控模型开发的特征选择与常用数据源介绍

一.风控常用数据源介绍
风控可分为贷前、贷中、贷后三个不同的阶段,在不同阶段建模所用到的数据源也是不同的。比如:
•贷前通常会用到反映客户信用水平的数据(征信、多头借贷、其他平台的逾期信息等);
•贷中通常会加工一些客户的用信历史、支用还款行为等;
•贷后通过会使用到客户得逾期、催收信息等等。

从这些数据源的获取渠道分类来看,主要有3个渠道:
•一是用户自己提供的(身份证、年龄、学历、收入、所在公司、行业、户籍、联系方式、婚姻状况、联系人信息等等);
•二是经客户授权后获取的客户信息(APP行为数据、设备类信息、贷中行为数据等);
•三是从外部第三方接入的数据(人行征信、公积金、多头、消费、支付等)。

二. 特征衍生常见方法
特征衍生是整个建模过程关于特征处理(特征工程)中的一个环节,一些变量或者变量之间的组合能给模型引入非线性的统计信息,给模型带来一定程度的提升。

变量衍生有各种各样的方法,比的就是谁的脑洞更大。可以简单粗暴的根据业务理解进行变量的组合。一般暴力衍生的基本逻辑:基于时间窗口事件类型聚合统计指标这几个维度的笛卡尔积。
时间滑窗数量统计类特征
时间窗口求和统计特征
时间窗口均值统计特征
时间窗口最值统计特征
时间窗占比统计类特征
时间窗趋势统计类特征
时间窗稳定性衍生特征

比如通话记录类的特征衍生:
时间+事件(拨出/接入/时长/次数)+统计(count/sum/mean/占比)

特征衍生常见方法
在这里插入图片描述

关于以上模型特征衍生与选择的内容,有兴趣的童鞋可关注:
在这里插入图片描述

~原创文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值