数据准备--降低基数，连续变量分段

最新推荐文章于 2024-07-12 14:45:16 发布

心雨心辰

最新推荐文章于 2024-07-12 14:45:16 发布

阅读量5.8k

点赞数

分类专栏：信用风险评估

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xidianliutingting/article/details/53260363

版权

数据准备包括收集数据、错误值清理和衍生变量生成。对于基数过大的名义变量，可通过合并类别、创建'other'类别等方式降低基数。连续变量分段常用等距或最优分段，后者通过决策树优化预测能力。抽样方法如随机抽样、均衡抽样和分层抽样用于处理大规模数据，以构建信用评分卡。

摘要由CSDN通过智能技术生成

数据准备非常重要：
1.从不同的渠道收集数据；
2.清理数据中意外错误或被认为是极端值的取值；
3.生成衍生的变量（feature）。

在数据处理过程，需要进行的操作：

当名义变量的取值大于12个，考虑降低基数：

1>将相同含义的变量合并；
2>出现频率下的类别被合并为一个新的类别，并给予一个合理的标识，如other。
3>合并变量的类别使得某些预测力指标最大化。
下面是采用决策树的方法，对于有12个类别的某个feature，首先把所有的看成一个分组，然后找出最优的二元分割方法，具体见《信用风险评分卡研究》的P92。
这里写图片描述

还有其他的一些降低基数的指标。

这里写图片描述

连续变量的分段：

连续变量必须分段，为了方便构建打分卡，两种方法：等距分段和最优分段。
等距分段是指分段的区间是一样的，比如客户年龄以10岁为间隔分段。
最优分段是使得该变量的预测能力指标得到优化，相当于名义变量降低基数的最优分群。
如下是采用决策树的方法，先规定最小分段的规模，然后进行初始的等距分段（取值顺序保

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。