特征工程之特征选择(1)----方差过滤

本文介绍了特征工程中的方差过滤法,通过筛选低方差特征来减少数据集的噪声。首先讲解了特征工程的步骤,强调了理解数据的重要性。接着,以数字识别数据集为例,展示了如何使用方差过滤法删除无用特征,并对比了过滤前后随机森林和KNN模型的运行时间和性能。实验结果显示,方差过滤法能有效减少KNN的运行时间,提高精确率,但在随机森林中影响较小。最后,讨论了如何选择合适的方差阈值,并指出方差过滤法常用于初步减少特征,后续可能需要结合其他特征选择方法进一步优化。
摘要由CSDN通过智能技术生成

特征工程概述

特征工程(feature engineering)是将原始数据转换为更能代表预测模型的潜在问题的特征的过程。

特征工程的三个步骤

  • 特征提取:从文字、图形、声音等其他非结构化数据中提取信息作为新的特征,
    比如从淘宝商品的名称中提取出产品类别,颜色,是否网红产品等
  • 特征创造:把现有特征进行组合或计算,得到新的特征
    比如有一个特征速度v,和一个特征距离s,可以通过s/v运算创造一个新的特征时间t
  • 特征选择:从所有特征中选择出有意义的,对模型有用的,避免必须将所有特征导入模型的情况

特征选择之前的注意事项

和数据提供者开会!和数据提供者开会!和数据提供者开会!
一定要抓住提供数据的人,尤其是理解业务和数据含义的人,跟他们多了解一下数据。
技术是模型起飞的保障,但是对数据的理解是模型的基础。
正常情况下特征选择的第一步就是根据我们的目标,用业务常识来选择特征。
在某些特殊情况下,我们对数据完全不了解,不知道每一个特征的意义
这样的情况下我们就不能通过我们的常识来进行特征选择。
这种情况下,我们有4种特征选择方法:过滤法,嵌入法,包装法,和降维算法

方差过滤法

通过特征本身的方差来筛选特征,
一个特征的方差越小,表明,该特征的变化越不明显,
变化越不明显的特征对我们区分标签没有太大的作用所以应该消除这些特征

示例

数据下载

本次采用的数据集是kaggle上的digit-recognizer数据集,原始数据下载地址
快捷下载

导入相关模块

from sklearn.feature_selection import VarianceThreshold # 方差过滤
from sklearn.model_selection import cross_val_score # 交叉检验
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier as KNN
import pandas as pd
import numpy as np

加载数据

file_name = "E://anaconda/machine-learning/test1/data/digit-recognizer/t
  • 21
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 22
    评论
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值