机器学习——连续型特征离散化

在特征工程中,连续特征的离散化是一个关键步骤,有助于引入非线性特性,降低噪声并增强模型表现。常见的离散化方法包括等距划分、卡方检验和信息增益法。卡方检验通过比较分裂点两侧目标值分布的显著差异来决定是否分裂区间,而信息增益法则考虑信息熵的变化,寻找最大增益的分裂点。这些方法在离散化过程中能有效优化特征并提升模型性能。
摘要由CSDN通过智能技术生成

在特征工程中,特别是logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。离散特征的增加和减少都很容易,易于模型的快速迭代。此外,噪声很大的环境中,离散化可以降低特征中包含的噪声,提升特征的表达能力。

连续特征离散化最常用的方法:

(1)划分区间

如1-100岁可以划分为:(0-18)未成年、(18-50)中青年、(50-100)中老年.

这其中包括等距划分、按阶段划分、特殊点划分等。

(2)卡方检验(CHI)

分裂方法,就是找到一个分裂点看,左右2个区间,在目标值上分布是否有显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点。合并类似,先划分如果很小单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛。卡方值通常由χ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值