机器学习中的数据集处理

最新推荐文章于 2024-04-18 15:39:29 发布

木子李___

最新推荐文章于 2024-04-18 15:39:29 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/weixin_45857735/article/details/120393026

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据集处理（预处理）

官方网站
主要包括：去除唯一属性，处理缺失值，特征编码，数据的标准化和正则化，特征选择，主成分分析

1.去除唯一属性：

如导入时带的序列号（标号），没有用，所以可以去掉

缺失值的处理（三种方法）

直接使用含有缺失值的特征（有的时候数据会不好用）
删除含有缺失值的特征(简单粗暴，但有的时候并不适合)
缺失值补全
1. 均值插补（连续值）
  - 最简单，不多BB
2. 如果离散取值，可以用众数，中位数
3. 用同类均值插补
  - 是对均值插补的优化
  - 如果是无监督可以先进行聚类，用簇中的均值作为填充
4. 建模预测
  - 思想：口岸和缺失的属性作为预测的目标进行预测（其实就是吧缺失值的数据作为标签），把数据集（按当前要关注的属性）分成有缺失值的和没有缺失值的两类，把没有缺失值的作为训练集进行模型训练，拿跑出来的模型对有缺失值的那部分数据进行预测。拿预测的值作为对当前属性的填补。
5. 高维隐射
  - 思想：将属性映射到高维空间。如果是离散取值，假设有K个取值，扩展成K+1个值（把缺失也作为一种取值），当做K+1个属性（有则取1 没有取0）（此时一条数据只能在这K+1个属性上有一个1，其余都取0）
  - 缺点：属性维度有的时候会变得特别大，计算会比较费时间。
  - 优点：缺失值还是缺失值，保留了原本数据的特点。
6. 多重插补
  - 多重插补认为待插补的值是随机的，其值来自已观测到的数据。用生成的一组随机数，选择已有的值进行补充，跑模型后按结果最好的作为补充
7. 极大似然估计
8. 压缩感知和矩阵补全
9. 手动插补：（其实这个方法用的还是比较多的，而且出错的几率也比较小）根据主观臆断和经验等进行填补。有时涉及到一些专业领域时，可以由专家系统，经验等进行插补。

特征编码

特征二元化：
- 将数值型的属性转换成布尔值（大于某个取值时，取值为1，否则取0）
- 举个例子：
  from sklearn import preprocessing
  x = [[1,3,5,3,4,2],
  [1,0,0,4,7,2]]
  binarizer = preprocessing.Binarizer(threshold=3)# threshold就是临界值，大于ts取1(没有等于呦)
  print(binarizer.transform(x))
  “”"
  运行结果：
  [[0, 0, 1, 0, 1, 0],
  [0, 0, 0, 1, 1, 0]]
  “”"
独热编码（one-hot）：
- 高维映射的思想就是独热编码的思想
- 举个例子：男女（可以编码为0,1，但这样可能会引入大小这样的比较问题），所以把男女当做两个属性：男、女（如是男则取1，不是男则取0 ）
- 有M个取值，则变成M个属性（这M个分量上只有一个可取1，其余属性取0）
- 三个特点：
  - 处理非数值属性（也可以处理数值属性，但是要对数据进行处理）
  - 扩充特征
  - 编码后属性稀疏，存在大量的零元分量

数据的标准化，正则化

有的算法要求样本数据具有零均值和单位方差
消除量级的影响
数据的标准化是将样本的属性缩放到某个指定的范围
数据的正则化：将样本的某个范数缩放到单位1，对每一个样本先计算其Lp范数，每个属性值都除其Lp范数，比较每个属性取值的大小，可以比较和观测不同样本之间的差别

特征选择

去掉无关的属性，解决维度灾难问题，降低学习的难度
方法：
1. 过滤式：先进行特征选择，然后去训练学习器，所以特征选择的过程与学习器无关。
  - 猜中近邻near-hit（在同类中找到最近的）
  - 猜错近邻near-miss（在异类中找到最近的）
  - 对于属性J 来说，如果离near-hit 近则留下该属性（近和不近的度量会设定一个值），否则去掉该属性
2. 包裹式
  - 随机选择若干属性，训练模型，选择误差最小的，经过若干组迭代，选出一组较好的特征子集。
  - 缺点：如果特征多，属性多会非常占用资源和浪费特别多的时间。

参考：

https://blog.csdn.net/hren_ron/article/details/80914491

木子李___

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的数据集处理

数据集处理（预处理）官方网站主要包括：去除唯一属性，处理缺失值，特征编码，数据的标准化和正则化，特征选择，主成分分析1.去除唯一属性：如导入时带的序列号（标号），没有用，所以可以去掉缺失值的处理（三种方法）直接使用含有缺失值的特征（有的时候数据会不好用）删除含有缺失值的特征(简单粗暴，但有的时候并不适合)缺失值补全均值插补（连续值）最简单，不多BB如果离散取值，可以用众数，中位数用同类均值插补是对均值插补的优化如果是无监督可以先进行聚类，用簇中的均值作为填
复制链接

扫一扫