机器学习笔记01特征工程

一.特征选择的方法
1.过滤法选择特征
1.1 方差筛选
模型训练时,选择方差大的特征,舍弃方差小的特征。skleran.VaricandeThreshold通过指定方差的阈值,筛掉方差小于阈值的特征。
1.2 相关系数
分别计算训练集中各特征与输出值(输出连续值)的相关系数,通过设定阈值,选取相关系数较大的部分特征。
1.3 假设检验
a.卡方检验 b.F检验 c.t检验
2. 嵌入法选择特征
2.1 sklearn.SelectFromModel函数选择特征
2.2 L1正则化和L2正则化 正则化惩罚项增大的过程中,筛掉部分特征系数容易变成0的特征。

二. 特征的具体表达
2.1 缺失值处理
sklearn.preprocessing.Imputer预处理
(1)连续值特征 平均数(mean)填充缺失值或中位数(median)填充缺失值
(2)离散值特征 众数(mode)的类别值填充缺失值

2.2 离散特征的连续化处理
(1)独热编码 sklearn.OneHotEncoder
(2)特征嵌入 tf.nn.embedding_lookup
(3)转化词向量 word2vec

2.3 离散特征的离散化处理
(1)独热编码 sklearn.OneHotEncoder
(2)虚拟编码 dummy coding

2.4 连续特征的离散化处理
(1)根据阈值进行分组
(2)GradientBoostingClassifier.apply

三. 特征的预处理
3.1 特征的标准化和归一化
(1)z_score标准化 from sklearn.preprocessing import StandarScaler
(x_mean)/std
(2)min_max标准化from sklearn.preprocessing import MinMaxScaler
(x-min)/(max-min)
(3)L1/L2范数标准化 from sklearn.preprocessing import Normalizer
3.2 处理不平衡数据
(1)权重法
(2)欠采样和过采样
三种过采样方法:
a. 随机过采样 from imblearn.over_sampling import RandomOverSampler ros()
b. SMOTE from imblearn.over_sampling import SMOTE sos()
b. SMOTETomek from imblearn.combine import SMOTETomek kos()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值