特征工程

最新推荐文章于 2024-06-17 16:57:37 发布

甄知一二

最新推荐文章于 2024-06-17 16:57:37 发布

阅读量98

点赞数 1

分类专栏：机器学习文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45880764/article/details/118089680

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

树模型

树模型对数据倾斜相对不敏感

特征选择

如果一个特征的方差接近于0，说明几乎没什么变化，就没用，
Filter过滤：根据设定阈值过滤方差
wrapper包装：每次选择若干特征进行学习
Embedded嵌入：先使用机器学习算法得到特征的权重系数

SVD奇异值分解

将一个矩阵data分解为多个矩阵相乘，data是m*n

U E UT ,分别为 mm mn nn 其中E是对角阵，对角元素是datadata^T特征值的平方根

优点：简化数据，去除噪声，提高算法的结果

缺点：数据转换之后可能难以理解

标准化归一化

都是线性变换

归一化一般缩放到 [0，1]，标准化服从正态分布数据大小顺序没变
归一化主要受两个极值影响，标准化里每个数据都会影响

编码

序号编码：适合类别间具有大小关系的数据
one-hot：处理类别间不具有大小关系（用稀疏向量节省空间，配合特征选择降低维度）

不需要归一化的机器学习模型

概率模型不需要归一化，不关心变量的值，关心变量的分布、变量之间的条件概率

如：决策树、随机森林

数值缩放不影响分类点的位置，因为第一步是按照特征值排序，排序不变，不能进行梯度下降，求导没有意义，寻找最优点是通过寻找最优分裂点

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征工程

树模型树模型对数据倾斜相对不敏感特征选择如果一个特征的方差接近于0，说明几乎没什么变化，就没用，Filter过滤：根据设定阈值过滤方差wrapper包装：每次选择若干特征进行学习Embedded嵌入：先使用机器学习算法得到特征的权重系数SVD奇异值分解将一个矩阵data分解为多个矩阵相乘，data是m*nU E UT ,分别为 mm mn nn 其中E是对角阵，对角元素是datadata^T特征值的平方根优点：简化数据，去除噪声，提高算法的结果缺点：数据转换之后可能难以理解标
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。