特征工程

树模型

树模型对数据倾斜相对不敏感

特征选择

  • 如果一个特征的方差接近于0,说明几乎没什么变化,就没用,
  • Filter过滤:根据设定阈值过滤方差
  • wrapper包装:每次选择若干特征进行学习
  • Embedded嵌入:先使用机器学习算法得到特征的权重系数

SVD奇异值分解

将一个矩阵data分解为多个矩阵相乘,data是m*n

U E UT ,分别为 mm mn nn 其中E是对角阵,对角元素是datadata^T特征值的平方根

优点:简化数据,去除噪声,提高算法的结果

缺点:数据转换之后可能难以理解

标准化 归一化

都是线性变换

  • 归一化一般缩放到 [0,1],标准化服从正态分布 数据大小顺序没变
  • 归一化主要受两个极值影响,标准化里每个数据都会影响

编码

序号编码:适合类别间具有大小关系的数据
one-hot:处理类别间不具有大小关系 (用稀疏向量节省空间,配合特征选择降低维度)

不需要归一化的机器学习模型

概率模型不需要归一化,不关心变量的值,关心变量的分布、变量之间的条件概率

如:决策树、随机森林

数值缩放不影响分类点的位置,因为第一步是按照特征值排序,排序不变,不能进行梯度下降,求导没有意义,寻找最优点是通过寻找最优分裂点

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值