特征选择方法

最新推荐文章于 2024-09-06 15:34:58 发布

xyh@华子

最新推荐文章于 2024-09-06 15:34:58 发布

阅读量147

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44921938/article/details/130635422

版权

机器学习经常遇到过拟合的问题，在训练集效果表现好，在测试集上效果不佳，要解决过拟合方法：

原理：按照发散性和相关性对各个特征进行评分，设定阈值或者待选择特征进行筛选。

Pearson相关系数
皮尔逊相关系数是一种最简单的，能帮助理解特征和相应变量之间关系的方法，衡量变量之间的线性相关性，结果取值区间为[-1,1]。1,-1为正负相关，0为不相关。缺点，它只对线性关系敏感，两个变量之间具有相对应关系。（两个特征之间相关性高，保留与标签相关性最高一个）
注：两个变量的变化是单调的
协方差与协方差矩阵
如果协方差结果为正，说明变量之间同向变化，越大说明同向程度越高；协方差为负，说明反向程度越高；如果为0，说明变量之间不相关。
注：Pearson是协方差的标准化计算方式，其消除了两个变量之间变化幅度的影响。
距离相关系数
一元回归及多元回归

卡方检验
使用sickit-learn中接口实现特征的卡方值计算，保留卡方值最大的k个特征。（k值是超差，需要不断调整）
注：卡方值越大，说明两者差异大，相关性越高
Fisher得分
原理：类别间特征差异性大，类别内特征差异小。
F检验
F检验用来判断特征与标签的相关性，F检验只能表示线性相关关系。
kendall（肯德尔等级）相关系数（分类）
互信息和最大互系数

原理：根据目标函数，每次选择若干特征，或排除若干特征。

原理：先使用算法模型进行训练，得到各个特征的权值系数（通过模型训练出来的），对权值系数从小到达排序，选择特征。

关注