【机器学习笔记】特征筛选方式整理

几种特征筛选经典方法

1. 过滤法

1.1 特征缺失率

特征缺失率过高,则可删除;
离散、连续特征均适用;
适用于经典机器学习模型或神经网络模型,部分集成学习模型允许缺失值。

1.2 特征发散程度

特征取值单一,方差小接近于0,则可删除。
适用于离散特征;

1.3 相关系数

特征与target的pearson相关系数或spearman相关系数过低,则可删除;
适用于连续特征;
适用于回归任务;

1.4 互信息

特征与target互信息过低,则可删除;
适用于离散特征;
适用于在分类任务。

2. 封装法

2.1 逐步回归的线性回归

通过向前回归或向后回归的线性回归,将能够使AIC减小或经调整R2增大的特征留下,否则删除;
离散、连续特征均适用;
适用于回归任务;

3. 嵌入法

用不同的模型对特征与target进行拟合,选择特种重要性高或权重绝对值大的特征作为最终的入模特征。
离散、连续特征均适用;
分类、回归任务均适用;

4. 其它

4.1 特征分布一致性

在训练集与测试集中,时序特征的分布有较大的差别,认为特征有时效性或可能随时间而失效,则可删除;
通常计算ks散度衡量特征分布的相似程度,p值小于0.05则认为不同分布可删除。
也可通过计算psi值衡量时序特征分布的稳定程度,psi大于0.1则认为特征分布不稳定可删除。

4.2 特征相关性

特征之间相关性高,在线性模型中往往会造成共线性问题,则需要删除信息增益小或与target相关性低的特征;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值