特征筛选工具

最新推荐文章于 2024-05-27 10:15:10 发布

xieyan0811

最新推荐文章于 2024-05-27 10:15:10 发布

阅读量426

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xieyan0811/article/details/113092572

版权

机器学习专栏收录该内容

40 篇文章 9 订阅

订阅专栏

本文介绍了feature-selector工具，这是一个用于特征筛选的Python库，旨在减少模型复杂度并提高可解释性。通过查找缺失严重、单值、高相关性及低重要性的特征，该工具帮助优化特征选择。示例展示了如何使用该库处理信用风险预测数据，通过可视化图表展示特征状态，并展示特征数量与模型性能的关系。

摘要由CSDN通过智能技术生成

做模型时常常是特征越多模型准确率越高（至少在训练集上）。但过多的特征又增加了数据收集、处理、存储的工作量，以及模型的复杂度。

在保证模型质量的前提下，我们希望尽量少地使用特征，这样也间接地加强了模型的可解释性。一般来说，为避免过拟合，特征尽量控制在实例个数的1/20以下，比如有3000个实例，则特征最好控制在150以下。

除了特征的具体个数，特征工程中也经常遇到某些特征严重缺失，特征相关性强，一些特征不但无法给模型带来贡献，反而带来噪声等问题。

本篇介绍特征筛选工具feature-selector，在github上有1.8K星，它使用少量的代码解决了特征筛选中的常见问题，用法简单，便于扩展；同时也提供了作图方法，以更好地呈现特征效果。

下载地址

https://github.com/WillKoehrsen/feature-selector

核心代码

其核心代码文件只有feature_selector/feature_selector.py（600多行代码），所有方法都定义在FeatureSelector类中，因此，不用安装，只需要将该文件复制你的项目中即可使用。

功能点

寻找缺失严重的特征
寻找仅有单值的特征
寻找相关性强的特征（皮尔森相关系数，默认只考虑数值型）
寻找特征重要性为0的特征（根据gbm模型）
寻找特征重要性低的特征（根据gbm模型）

示例代码

示例及效果见：Feature Selector Usage.ipynb

代码中使用Kaggle比赛中信用风险预测的数据，为分类问题。

其中包含10000条数据，122个特征；将其TARGET字段作为标签，其它字段作为预测特征。

首先用训练数据建立类的实例：

fs = FeatureSelector(data = train, labels = train_labels)

后面逐一列出了各个函数的用法，此处不再一一列举。

图示

工具提供plot_xxx等方法具象地展示了数据情况：

数据缺失图
该图横坐标为缺失比例，纵坐标为特征个数，例如第一列为缺失比例在0-0.1之间的特征约60多个。

特征取值图
该图横坐标为特征取值个数，纵轴为特征个数，例如第一个柱表示将近100个特征取值的个数在1-1000之间，最后一柱表示有几个特征有上万种取值。

特征相关性
下图中列出了相关系数大于0.98的特征（未列出所有特征），同时还提供fs.record_collinear()方法列出各个特征对及其相关系数。

特征重要性
工具默认使用lightgbm模型计算特征重要性，在调用方法时需要指定损失函数，以及使用分类方法还是回归方法，迭代次数等等。工具可显示其前N个重要特征。另外，还可以参考下图，查看模型特征个数与模型效果的关系，下图显示：将模型参数简化为122个后，模型准确率几乎不变。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xieyan0811 CSDN认证博客专家 CSDN认证企业博客

码龄17年

610: 原创

1万+: 周排名

787: 总排名

247万+: 访问

: 等级

2万+: 积分

4764: 粉丝

2177: 获赞

284: 评论

6729: 收藏

私信

关注

热门文章

分类专栏

论文阅读 90篇
大模型 43篇
机器学习 40篇
研究思考 1篇
深度学习 45篇
算法实战 28篇
Pytorch 14篇
时序 3篇
Docker 4篇
股票数据分析 9篇
大数据 30篇
少儿编程 3篇
移动开发 112篇
linux 34篇
工具 45篇
搭建网站和服务 9篇
Arduino 18篇
Python 26篇
图形图像 20篇
区块链
随笔 9篇
自然语言处理 28篇
未发 1篇

最新评论

论文阅读_检索增强生成 RAG 综述
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Obsidian+llama3：终于搭建了自己的知识库
艾学习: 有使用案例吗？
论文阅读_OpenAI嵌入+Lucene
征途黯然.: The article is fantastic, and 论文阅读OpenAI嵌入Lucene is truly impressive.
论文阅读_基于嵌入的Facebook搜索
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读_基本于文本嵌入的信息提取
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。