特征处理

最新推荐文章于 2023-12-22 02:55:47 发布

wnloverforever

最新推荐文章于 2023-12-22 02:55:47 发布

阅读量205

点赞数

分类专栏：机器学习

原文链接：https://www.cnblogs.com/wkslearner/p/8933685.html

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

好的数据及特征往往是一个性能优异模型的基础

特征处理：

数据清洗（缺失值处理，异常值检验，调配样本比例和权重）

数据规范化

特征衍生与规范

特征选择：

特征过滤

Wrapper method

Embedded method

数据清洗（缺失值处理，异常值检验，调配样本比例和权重）

缺失值处理：（以免引入过多人工信息）

方法：删除缺失值和填充缺失值

删除缺失值，当某一样本的多个值缺失时，便可删除这一样本

当某一特征的缺失值，多于样本总数的一半，也就是当一半多的样本都缺失这一特征值时，可以将这一特征删除。

异常值检验：

基于高斯分布，随着一个特征进行变化，看另一特征是否太偏离高斯分布，超过三倍标准差
聚类方法
One class svm

Novelty detection ：当训练数据中没有离群点，我们的目标是用训练数据训练出的模型去检验另外发现的新样本

数据规范化

数据无量纲化

连续变量离散化

离散变量处理

数据无量纲化：去除数据的单位限制，将其转换为无量纲的纯数字

标准化处理：对每一列进行处理
极值化处理：
均值化：

连续变量离散化：一些情况下离散变量能简化模型计算并提高模型的稳定性。

特征提取

PCA主成分分析

去除均值，对每一个特征减去各自的均值

计算协方差矩阵

计算协方差矩阵的特征值和特征向量

将特征向量按照特征值从大到小的顺序，取靠前的k个特征向量

将数据转换为k个特征向量构建的空间中，即为降维到k维后的数据

LDA线性判别分析

计算类内离散度矩阵

计算类间离散度矩阵

计算类内里算的矩阵的逆与类间离散度矩阵的乘积

计算乘积结果的最大特征值及其对应的特征向量，得到投影矩阵

将数据集中每一个样本特征转换为新样本

输出得到新数据集

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征处理

好的数据及特征往往是一个性能优异模型的基础特征处理：数据清洗（缺失值处理，异常值检验，调配样本比例和权重）数据规范化特征衍生与规范特征选择：特征过滤Wrapper methodEmbedded method数据清洗（缺失值处理，异常值检验，调配样本比例和权重）缺失值处理：（以免引入过多人工信息）方法：删除缺失值和填充缺失值删除...
复制链接

扫一扫

专栏目录

wnloverforever CSDN认证博客专家 CSDN认证企业博客

码龄6年

47: 原创

12万+: 周排名

209万+: 总排名

1万+: 访问

: 等级

555: 积分

0: 粉丝

4: 获赞

3: 评论

15: 收藏

私信

关注

分类专栏

pandas 4篇
分析函数 1篇
cornernet 5篇
贪心算法 4篇
Tensorflow使用 6篇
Insightface 1篇
递归+回溯 6篇
MTCNN 8篇
深度学习 3篇
报错解决 1篇
cdh 1篇
机器学习 11篇

最新评论

连续特征相关性筛选
不吃西红柿丶: 很不错的文章，宝藏博主~
离散分箱
不吃西红柿丶: 写的不错，学习了，学习的道路上一起进步，也期待你的关注与支持！
Cornernet---decode
ctotalk: 收了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。