几种特征筛选经典方法
1. 过滤法
1.1 特征缺失率
特征缺失率过高,则可删除;
离散、连续特征均适用;
适用于经典机器学习模型或神经网络模型,部分集成学习模型允许缺失值。
1.2 特征发散程度
特征取值单一,方差小接近于0,则可删除。
适用于离散特征;
1.3 相关系数
特征与target的pearson相关系数或spearman相关系数过低,则可删除;
适用于连续特征;
适用于回归任务;
1.4 互信息
特征与target互信息过低,则可删除;
适用于离散特征;
适用于在分类任务。
2. 封装法
2.1 逐步回归的线性回归
通过向前回归或向后回归的线性回归,将能够使AIC减小或经调整R2增大的特征留下,否则删除;
离散、连续特征均适用;
适用于回归任务;
3. 嵌入法
用不同的模型对特征与target进行拟合,选择特种重要性高或权重绝对值大的特征作为最终的入模特征。
离散、连续特征均适用;
分类、回归任务均适用;
4. 其它
4.1 特征分布一致性
在训练集与测试集中,时序特征的分布有较大的差别,认为特征有时效性或可能随时间而失效,则可删除;
通常计算ks散度衡量特征分布的相似程度,p值小于0.05则认为不同分布可删除。
也可通过计算psi值衡量时序特征分布的稳定程度,psi大于0.1则认为特征分布不稳定可删除。
4.2 特征相关性
特征之间相关性高,在线性模型中往往会造成共线性问题,则需要删除信息增益小或与target相关性低的特征;