昨天的文章我们提到了评分模型中的监控报表汇总。文章中提及的监控报表内容,大部分是跟业务指标结合的监控内容,该文章所提及的监控的维度也较为丰富,大家抽空可以学习了解。传送:评分模型的监控报表汇总。
今天我们再介绍另一种风控模型开发过程中也常出现的情况,当遇到变量维度缺失的情况下,如何挑选更合适的变量进行替换。
先谈谈变量缺失会在什么情况会出现?一般当我们开发所涉及到的数据涉及第三方外部数据源,或者渠道变更所造成的数据波动,或因为公司政策而引起的产品变动等原因都会造成数据缺失,直接结果就是现有数据维度跟我们之前开发模型所涉及的变量存在差异。
这个情况还挺常见,也是数据策略和模型开发过程中常见的情况,由此我们需要经常监控变量情况,缺失是其中最可能出现的情况。那数据缺失后,怎么处理?直接丢掉呗。在以下分析内容中,会看到,直接舍弃变量,造成模型效果的大幅下降,我们真不想看到。
不能舍弃,那就只能补充,以下我们来谈谈如何补充也即替换变量问题。
一.corr
为了帮助大家更容易理解,我们以某现金贷产品为例说明。
在模型model1跑分的过程中,我们看到前面三个变量尽管在model1中的iv跟ks的效果都还不错,尤其是iv值已经达到理想范围。
但仔细判断这三个变量都是跟通话信息相关的数据,比如第一个变量是最近7天的通话次数,这个变量数据能获取的前提是相关的数据权限可以被获取。
但当在model1上线了一段时间后,政策突然发力,强有力的特征禁止获取权限。尤其近期,这三个跟通话相关的数据获取受限,该数据的整体的命中率仅达72.34%。
于是我们需要寻找相关替换性变量。
这里为了缩短相关的模型开放时长,尽快替换相关维度,我们在替换的变量方向以CORR指标进行变量筛选维度。从以下的数据分析中观察,用充值数据跟通话数据的相关度较高。其CORR大部分都达到0.5以上的相关度。
corr是相关度指标分析,这里我们会选择corr相关度高的指标帮我们快速筛选相关变量。这里发现有些变量确实相关性很高,存在可替代的可能性。
corr解释:
|统计学中,皮尔逊积矩相关系数,用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。这个相关系数也称作“皮尔森相关系数r”|
sas计算相关度的方法:
PROC CORR DATA=table PEARSON SPEARMAN NOSIMPLE BEST=2; VAR x y z;
python采用numpy模块
np.corrcoef(x, y)
二.AUC
筛选到该指标后,如何判断该指标的替换是否有效?依旧我们用具体指标衡量。这里我们再引入AUC的概念。
变量替换前后对比图示:
指标解释:
从图中可知。原先红线所示的模型model1其AUC面积最大,模型的也最好。当在变量缺失后,蓝色model2所代表的曲线下探,AUC面积最小,证明变量缺失后,模型效果下降明显。
在变量缺失后,我们立马用其他维度变量进行替换,开发了model3。观察model3的图例,可见其头部仍有大幅下降,但是中部慢慢趋近于原先模型的水平,尾部水平还好于原先的模型。
综上:
一方面数据源的限制,导致特征缺失,模型效果下降了,于是我们寻找替换方案;
另一方面,从模型来看,新的替换的变量,确实有一定的区分度。
三.思考扩展
在解决了以上模型的变量的替换问题后,如果深入思考:
以上的变量维度中我们挑选了充值数据跟通话数据这两个相关度较高的维度,那为什么一开始就不使用充值数据进行model1模型的开发呢?
解决这里的问题需要理解:[变量回溯]及其相关内容。
可回顾:
~原创文章
…
end