分箱计数--减少数据稀疏度

最新推荐文章于 2021-04-20 16:06:41 发布

AmorFatiall

最新推荐文章于 2021-04-20 16:06:41 发布

阅读量1.5k

点赞数

分类专栏：个人学习数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43561290/article/details/102567928

版权

分箱逻辑：

1.类别型特征：

1）类别数在5个以下，可以直接根据类别来分箱 (binning_cate)
2）类别数在5个以上，建议做降基处理，再根据降基后的类别做分箱

2.数值型特征：

1）离散型数值特征（特征value的变动幅度较小）：
若特征value的非重复计数在5个以下，可以直接根据非重复计数值来分箱(binning_cate)
若特征value的非重复计数在5个以上，建议根据业务解释或者数据分布做自定义分箱(binning_self)
2）连续型数值特征（特征value的变动幅度较大）：
可以用卡方分箱或自定义分箱。(binning_num,binning_self)
PS:一些特征用卡方分可能会报错，建议这些特征改为手动自定义分箱

3.缺失型特征：

1）缺失率在5%以下，可以先对缺失做填充处理再分箱(binning_num)
2）缺失率在5%以上，建议将缺失当作一个类别来分箱(binning_sparse_col)

4.稀疏型特征分箱

建议将稀疏值（一般为0）单独分为一箱，剩下的值做卡方或者自定义分箱(binning_sparse_col)

离散的优势：

（1）离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
（2）逻辑回归属于广义线性模型，表达能力受限，单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
（3）离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
（4）可以将缺失作为独立的一类带入模型；
（5）将所有变量变换到相似的尺度上。

分箱方法

关于变量分箱主要分为两大类：有监督型和无监督型

无监督：(1) 等宽 (2) 等频 (3) 聚类
有监督：

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分箱计数--减少数据稀疏度

分箱逻辑：1.类别型特征：1）类别数在5个以下，可以直接根据类别来分箱 (binning_cate)2）类别数在5个以上，建议做降基处理，再根据降基后的类别做分箱2.数值型特征：1）离散型数值特征（特征value的变动幅度较小）：若特征value的非重复计数在5个以下，可以直接根据非重复计数值来分箱(binning_cate)若特征value的非重复计数在5个以上，建议根据业务...
复制链接

扫一扫

专栏目录

AmorFatiall CSDN认证博客专家 CSDN认证企业博客

码龄6年

45: 原创

6万+: 周排名

137万+: 总排名

5万+: 访问

: 等级

996: 积分

108: 粉丝

23: 获赞

5: 评论

179: 收藏

私信

关注

热门文章

分类专栏

数据分析 1篇
python 13篇
机器学习 11篇
个人学习 36篇
数据集 2篇

最新评论

文本数据处理的终极指南【英文文本】
营320: 你好，我看都是对单个句子的词性标注和词形还原，如何对csv文件中的多条文本做词性标注和词形还原呢，麻烦帮忙解答一下吧（俺是个编程小白）
异常值检测——孤立森林(Isolation Forest)
天天睡: 你好，请问一下，我有1.8w个数据，有孤立森林检测时，要花3秒左右才能完成，有什么方法可以提高速度吗？
【NLP】tensorflow进行中文自然语言处理中的情感分析
菠萝啤YJB: 您好，请问是tensorflow2.0吗
Aspect Based Sentiment Analysis (ABSA)
AmberTYP: 请问有没有代码？可以共享一下吗？谢谢
ELMO模型
六七～: 你好，请问包括卷积层的完整的模型可以说下吗？数据卷积层的数据是四维的嘛？[batch_size,time_steps,max_word_length,char_length] ,然后对后面的两个维度进行卷积，输入LSTM层的维度最终回调整为[batch_size,time_steps,dim]??

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。