机器学习特征工程之连续变量离散化:聚类法进行分箱

本文探讨了在机器学习的特征工程中,如何通过聚类方法对连续变量进行离散化处理。离散化有助于解决数据分布不均匀的问题,如收听次数和收入等例子所示。介绍了分位数法、距离区间法、频率区间法和聚类法,特别是聚类法在分箱中的应用,以改善模型输入的特性。
摘要由CSDN通过智能技术生成

 机器学习特征工程之连续变量离散化:聚类法进行分箱

离散化,就是把无限空间中有限的个体映射到有限的空间中;

根据用户的听音乐的数据来预测哪些歌曲更受欢迎。

假设大部分人听歌都很平均,会不停的听新的歌曲,但是有一个用户24小时的不停播放同一首歌曲,并且这个歌曲很偏门,导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型,就会误导模型。这时候就需要使用“二值化”。

拿每个人的收入举例,大部分人的收入都不高,极少数人的收入极其高,分布很不均匀。有些人月收入3000,有些人月收入30万,跨了好几个数量级。

这种特征对于模型很不友好。这种情况就可以使用分桶来处理。分箱就是将数值特征分成不同的区间,将每个区间看做一个整体。

连续数据的离散化结果可以分为两类:

  一类是将连续数据划分为特定区间的集合,例如{(0,10],(10,20],(20,50],(50,100]}

  一类是将连续数据划分为特定类,例如类1、类2、类3

 常见实现针对连续数据化离散化的方法如下。

  分位数法:使用四分位、五分位、十分位等分位数进行离散化处理

  距离区间法:可使用等距

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Data+Science+Insight

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值