金融机构对于会员管理、渠道、客户管理,基本都会涉及到一个评级的内容,通过评级我们可以知晓这些群体的特点,拟定具体画像,以及给不同的人群分类等等。常规上可以通过评分卡跑一个评分等级来评级,但并不是每个场景都需要复杂的建模流程,今天我们来讲解如何用模型来处理评级中的内容。
(其中专家法评级可以参考番茄之前介绍的文章:两种专家经验评分卡的学习)
本文会以模型法进行评级,来跟大家讲解具体的内容,整个模型法评级涉及五个步骤详情如下:
第一步:确定目标变量选择口径
第二步:确定需要筛选具体的变量维度
第三步:变量初选
第四步:字段筛选
第五步:变量分值分配
以下,我们分别来阐述:
第一步:确定目标变量选择口径
逾期客户Y值选择:欺诈客户画像通常选取历史最大逾期天数为X天的客户为逾期标签,15天、30天、45天、60天为y值,其最终判断同欺诈标签选择还是从迁徙率来判断,如M1-M2的迁徙率为80%,则取逾期天数在30+的客户为逾期客户
第二步:确定需要筛选具体的变量维度
以医美商户评级为例,本次涉及的评级的维度可以参考的有商户标签、客户质量、商户逾期率(Lagged口径)等维度
商户标签:
①商户所在地:商户隶属省份、城市、城市等级等衍生变量
②商户面积
③手术室数量:手术室数量决定该商户的最高业绩
④注册资本:注册资本是为了判断商户是否容易发生跑路现象
⑤合作时长
⑥商户营业时长:通常来说老商户、稳定商户营业时长肯定长
客户质量:
①近3月、近6月、近12月同盾分平均数
②近3月、近6月、近12月人行分平均数
③同盾多头>5的占比
④同盾多头>5的数量
④人行多头>5的数量
⑤客户A类评级占比
⑥客户E类评级占比
商户逾期率(Lagged口径)—商户资产质量
所有借据历史逾期笔数
所有借据历史各个逾期期数数量、占比、逾期率
近3、6、12月历史最大逾期天数
近3、6、12月逾期率
商户拒绝客户评级命中拒绝个数
…
第三步:确定需要筛选具体的变量维度
通过逻辑回归或者XGB用python跑包,排除缺失率大于某个阈值的字段。这里需要调用python等工具包,来协助跑数。
第四步:变量初选
选取iv值不错、分箱具有单调性的字段,选取时候要注意变量间的相关性,要排除掉相关性高的变量。
在整体的应用上,也许有些场景中模型的样本较少,整个时候可以采用专家法+模型进行评分。
这个变量筛选的过程中,iv值是个不错的筛选方式。
IV值是啥?
在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱。IV 值的取值范围是[0, 正无穷),如果当前分组中只包含响应客户或者未响应客户时,IV = 正无穷。
具体的计算公式为:
根据IV值的筛选内容,在本次模型法的应用上,我们选择了以下比较可以合适的维度有:
第五步:变量分值分配
在变量的权重分配上,是整个评级最后的重点跟难点,我们需要将以上筛选的变量赋予对应的权重值,之后再根据权重值进件不同程度的打分。
如何根据不同的维度(筛选的变量)赋予对应的权重,并且课程中相关的评级的数据集跟评级代码(python)也会相应提供,相关内容如:
以上剩余模块内容可回顾:
另:
~原创文章
…
end