一.风控常用数据源介绍
风控可分为贷前、贷中、贷后三个不同的阶段,在不同阶段建模所用到的数据源也是不同的。比如:
•贷前通常会用到反映客户信用水平的数据(征信、多头借贷、其他平台的逾期信息等);
•贷中通常会加工一些客户的用信历史、支用还款行为等;
•贷后通过会使用到客户得逾期、催收信息等等。
从这些数据源的获取渠道分类来看,主要有3个渠道:
•一是用户自己提供的(身份证、年龄、学历、收入、所在公司、行业、户籍、联系方式、婚姻状况、联系人信息等等);
•二是经客户授权后获取的客户信息(APP行为数据、设备类信息、贷中行为数据等);
•三是从外部第三方接入的数据(人行征信、公积金、多头、消费、支付等)。
二. 特征衍生常见方法
特征衍生是整个建模过程关于特征处理(特征工程)中的一个环节,一些变量或者变量之间的组合能给模型引入非线性的统计信息,给模型带来一定程度的提升。
变量衍生有各种各样的方法,比的就是谁的脑洞更大。可以简单粗暴的根据业务理解进行变量的组合。一般暴力衍生的基本逻辑:基于时间窗口事件类型聚合统计指标这几个维度的笛卡尔积。
时间滑窗数量统计类特征
时间窗口求和统计特征
时间窗口均值统计特征
时间窗口最值统计特征
时间窗占比统计类特征
时间窗趋势统计类特征
时间窗稳定性衍生特征
比如通话记录类的特征衍生:
时间+事件(拨出/接入/时长/次数)+统计(count/sum/mean/占比)
特征衍生常见方法
关于以上模型特征衍生与选择的内容,有兴趣的童鞋可关注:
…
~原创文章