【风控】评分卡建模的流程和要点

最新推荐文章于 2024-06-05 10:18:53 发布

我叫陈叉叉叉叉

最新推荐文章于 2024-06-05 10:18:53 发布

阅读量1.1k

点赞数

分类专栏：机器学习鸭文章标签： python 评分卡

本文链接：https://blog.csdn.net/wwqnmdhmp/article/details/128061430

版权

机器学习鸭专栏收录该内容

12 篇文章 4 订阅

订阅专栏

本文详细介绍了评分卡建模的过程，包括数据预处理（去重、缺失值和异常值处理）、数据分箱策略（数值和文本特征处理）、分箱编码、特征选择以及模型建立和检验。重点强调了分箱的稳定性和业务逻辑，以及模型检验的多个方面，如KS和AUC值的评估。

摘要由CSDN通过智能技术生成

评分卡建模的流程和要点

一、数据预处理

1、数据去重：删除重复的样本
2、缺失值处理:确定缺失值的标记，统一转化为统一标记的缺失值（null或者Nan），后续分箱进行处理。
3、错误数据的处理：格式不对或者不符合业务逻辑的数值，可以看作缺失值，或者标记为异常值。
4、异常值处理：针对评分卡，在分箱过程中可以完成异常值的的处理。

二、数据分箱

分箱的意义：一是增强模型的稳定性，二是可以很好的处理缺失值和异常值，三是简化了模型，四是结合评分卡提高了模型的可解释性。

文本特征的分箱：

1、对于分类数量较少（小于10类）的特征，可以按照其分类进行分箱；
2、对于类别数量不是特别多的特征（几十个左右）,最好是按照其内在逻辑进行合并和聚类，比如省份按照地区、经济水平等外在特征进行聚类和合并；
3、针对数据维度特变大的：一是可以看其分类占比，如果存在其中几种类型占比较大，可以将少数占比归为其他进行分类；如果所有分类占比都极小（如公司名称和详细地址等字段）则可以通过文本信息提取，提取关键信息。

数值特征的分箱

分箱的关键点是确定每个区间的分割点。常用分箱手法有：等频率(分位数分箱)；等距分箱；决策树分箱；IV（KS）最大化分箱；卡方分箱等。
数值分箱要点
1、单调性：分箱之间的单调性和趋势要符合业务逻辑，趋势一般有单调递增、单调递减、先增后减等；
2、稳定性：保证在不同数据集上分箱的趋势一致，不能在一份数据上单调递增，另一份单调递减；
3、最小样本比例：一般最小样本的占比为0.05；

缺失值的处理

对于缺失值比较多的一类，可以单独进行分箱，无需考虑其单调性；对于缺失值占比很少的部分，一是合并至数量最多的分箱，二是合并至坏样本率最相近的一箱；

三、分箱编码

一般使用各分箱的woe值进行编码

四、特征选择

特征选择的第一步重要是使用过滤式方法进行选择：
对于特征数量较多的情况，可以先用计算简单的指标进行过滤：如IV，相关系数，fisher值等
进一步可以使用计算复杂的特征：如MIC，单个特征时候模型的评价，特征重要程度和boruta等
还需确定特征之间的相关性，避免模型的多重共线性；
在完成过滤式之后（剩余特征在100个之内），可以通过特征选择策略（选择指标使用auc或者ks，验证方法使用交叉验证）完成模型最终特征的确定。可使用前向搜索法和特征检验法；