机器学习中的数据预处理和特征工程

最新推荐文章于 2024-05-24 22:21:58 发布

Charles Han

最新推荐文章于 2024-05-24 22:21:58 发布

阅读量296

点赞数

分类专栏：机器学习文章标签：数据预处理

本文链接：https://blog.csdn.net/weixin_45516016/article/details/103230103

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

机器学习中的数据预处理和特征工程

Week 3

无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler
缺失值处理
处理分类型特征：编码与哑变量
处理连续型特征：二值化与分段

归一化

一般来说，常用的数据归一化有两种：
最值归一化(normalization)：把所有数据映射到0-1之间。最值归一化的使用范围是特征的分布具有明显边界的(分数0～100分、灰度0～255)，受outlier的影响比较大
在这里插入图片描述

均值方差归一化(standardization)：把所有数据归一到均值为0方差为1的分布中。适用于数据中没有明显的边界，有可能存在极端数据值的情况.
在这里插入图片描述
Sklearn中的归一化
首先我们来看一个在实际使用归一化时的一个小陷阱。
我们在建模时要将数据集划分为训练数据集&测试数据集。
训练数据集进行归一化处理，需要计算出训练数据集的均值mean_train和方差std_train。
问题是：我们在对测试数据集进行归一化时，要计算测试数据的均值和方差么？
答案是否定的。在对测试数据集进行归一化时，仍然要使用训练数据集的均值train_mean和方差std_train。这是因为测试数据是模拟的真实环境，真实环境中可能无法得到均值和方差，对数据进行归一化。只能够使用公式(x_test - mean_train) / std_train并且，数据归一化也是算法的一部分，针对后面所有的数据，也应该做同样的处理.
因此我们要保存训练数据集中得到的均值和方差。
在sklearn中专门的用来数据归一化的方法：StandardScaler。

from sklearn.preprocessing import StandardScaler
standardScaler = StandardScaler()
# 归一化的过程跟训练模型一样
standardScaler.fit(X_train)
standardScaler.mean_
standardScaler.scale_   # 表述数据分布范围的变量，替代std_

# 使用transform
X_train_standard = standardScaler.transform(X_train)
X_test_standard = standardScaler.transform(X_test)

。。。未完待续