机器学习特征工程之连续变量离散化：聚类法进行分箱

Data+Science+Insight

于 2021-08-27 10:47:42 发布

阅读量1.7k

点赞数

分类专栏：数据科学从0到1 文章标签：机器学习数据挖掘深度学习自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhongkeyuanchongqing/article/details/119942796

版权

数据科学从0到1 专栏收录该内容

1640 篇文章 646 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了在机器学习的特征工程中，如何通过聚类方法对连续变量进行离散化处理。离散化有助于解决数据分布不均匀的问题，如收听次数和收入等例子所示。介绍了分位数法、距离区间法、频率区间法和聚类法，特别是聚类法在分箱中的应用，以改善模型输入的特性。

摘要由CSDN通过智能技术生成

机器学习特征工程之连续变量离散化：聚类法进行分箱

离散化，就是把无限空间中有限的个体映射到有限的空间中；

根据用户的听音乐的数据来预测哪些歌曲更受欢迎。

假设大部分人听歌都很平均，会不停的听新的歌曲，但是有一个用户24小时的不停播放同一首歌曲，并且这个歌曲很偏门，导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型，就会误导模型。这时候就需要使用“二值化”。

拿每个人的收入举例，大部分人的收入都不高，极少数人的收入极其高，分布很不均匀。有些人月收入3000，有些人月收入30万，跨了好几个数量级。

这种特征对于模型很不友好。这种情况就可以使用分桶来处理。分箱就是将数值特征分成不同的区间，将每个区间看做一个整体。

连续数据的离散化结果可以分为两类：

　　一类是将连续数据划分为特定区间的集合，例如{(0，10]，(10，20]，(20，50]，(50，100]}

　　一类是将连续数据划分为特定类，例如类1、类2、类3

　常见实现针对连续数据化离散化的方法如下。

　　分位数法：使用四分位、五分位、十分位等分位数进行离散化处理

　　距离区间法：可使用等距

了解本专栏

超级会员免费看

Data+Science+Insight

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Data+Science+Insight 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。