【机器学习笔记】特征筛选方式整理

_nucky

已于 2024-01-26 16:14:42 修改

阅读量724

点赞数 10

文章标签：机器学习笔记人工智能

于 2024-01-24 11:03:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43983674/article/details/135775933

版权

几种特征筛选经典方法

1. 过滤法

1.1 特征缺失率

特征缺失率过高，则可删除；
离散、连续特征均适用；
适用于经典机器学习模型或神经网络模型，部分集成学习模型允许缺失值。

1.2 特征发散程度

特征取值单一，方差小接近于0，则可删除。
适用于离散特征；

1.3 相关系数

特征与target的pearson相关系数或spearman相关系数过低，则可删除；
适用于连续特征；
适用于回归任务；

1.4 互信息

特征与target互信息过低，则可删除；
适用于离散特征；
适用于在分类任务。

2. 封装法

2.1 逐步回归的线性回归

通过向前回归或向后回归的线性回归，将能够使AIC减小或经调整R2增大的特征留下，否则删除；
离散、连续特征均适用；
适用于回归任务；

3. 嵌入法

用不同的模型对特征与target进行拟合，选择特种重要性高或权重绝对值大的特征作为最终的入模特征。
离散、连续特征均适用；
分类、回归任务均适用；

4. 其它

4.1 特征分布一致性

在训练集与测试集中，时序特征的分布有较大的差别，认为特征有时效性或可能随时间而失效，则可删除；
通常计算ks散度衡量特征分布的相似程度，p值小于0.05则认为不同分布可删除。
也可通过计算psi值衡量时序特征分布的稳定程度，psi大于0.1则认为特征分布不稳定可删除。

4.2 特征相关性

特征之间相关性高，在线性模型中往往会造成共线性问题，则需要删除信息增益小或与target相关性低的特征；

关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄6年

19
原创

42
点赞

45
收藏

22
粉丝

关注

私信

热门文章

分类专栏

git 1篇

最新评论

【机器学习笔记】特征筛选方式整理
CSDN-Ada助手: 非常棒的博客！恭喜你写了第18篇博客，标题为“【机器学习笔记】特征筛选方式整理”。你的坚持和努力真的令人钦佩。你的博客内容非常有价值，对于机器学习爱好者来说，特征筛选方式是一个非常重要的主题。在你的博客中，你给出了整理的方式，这对于初学者来说非常有帮助。下一步，我期待能看到你分享更多实战经验和案例分析。再次感谢你的分享，期待你未来的创作！
【机器学习笔记】模型评价指标整理
CSDN-Ada助手: 非常感谢你分享这篇《【机器学习笔记】模型评价指标整理》，对于想要深入了解机器学习的人来说，这篇博客无疑是一份宝贵的资料。希望你能够继续保持创作的热情，不断分享你的学习心得和经验。或许在下一篇博客中，可以结合实际案例，分享一些在模型评价指标应用中的注意事项和解决方案，这样能够更加生动地帮助读者理解和应用这些知识。期待你更多的精彩作品！
【frp】内网穿透
CSDN-Ada助手: 恭喜你撰写了第16篇博客！标题《【frp】内网穿透》非常吸引我，我对此话题非常感兴趣。你的博客内容一直都很有深度，阅读你的文章总能学到很多东西。希望你能继续保持创作的激情和努力，为读者们带来更多有价值的内容。对于下一步的创作建议，我谨虚心提出几点。首先，我希望你能更多地分享一些实用的案例，将理论与实践结合起来，让读者更容易理解和应用你所讲述的内容。其次，尽量保持文章的逻辑清晰和层次分明，这样读者在阅读时能更加轻松地跟随你的思路。最后，如果可能的话，你可以考虑增加一些插图或示例代码，这将有助于更好地说明你所讲述的概念。再次恭喜你的创作成果，并期待你未来更多精彩的博客！
【机器学习笔记】3种聚类模型
CSDN-Ada助手: 恭喜您写了第15篇博客，标题为“【机器学习笔记】3种聚类模型”。您的持续创作让读者们能够从不同角度深入了解机器学习领域的知识，非常值得称赞！接下来，如果您愿意的话，或许可以考虑分享一些实际应用中使用这3种聚类模型的案例，这将进一步帮助读者们将理论知识与实践结合起来。期待您未来更多精彩的博客！
【tensorflow安装】win10系统gpu版本
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。