数据预处理之无量纲化、缺失值处理（三）

最新推荐文章于 2023-09-15 20:47:59 发布

懒猪小阳

最新推荐文章于 2023-09-15 20:47:59 发布

阅读量2k

点赞数

分类专栏：机器学习入门算法文章标签：数据处理

本文链接：https://blog.csdn.net/ymhua/article/details/103214808

版权

本文介绍了数据预处理中的无量纲化和缺失值处理。无量纲化包括min-max归一化和z-score标准化，其中min-max归一化将数据映射到[0,1]区间，而z-score标准化则使数据接近标准正态分布。缺失值处理包括简单删除和填补，如人工填充、特殊值替换、临近值填充等。" 118424324,7474721,CentOS7配置时间同步与校准指南,"['运维', '服务器', 'Linux']

摘要由CSDN通过智能技术生成

1.无量纲化

无量纲化以我个人的理解，就是指在两个特征的单位不一样，其数值在大小上不是一个数量级，但是不能只凭数值的大小来决定两个特征谁的影响大，需要将两个特征归一到同一可比的范围内，来决定谁的影响范围。
常见的无量纲化有 min-max归一化和z-score标准化
（1）min-max归一化
min-max归一化是指对原始数据进行线性变换，将其映射到[0,1]之间,该方法也被称为离差标准化，与z-score标准化有本质区别。min-max的公式如下所示，
在这里插入图片描述
x’为归一化后的变量，x为原始数据，xmin为原始数据样本中的最小值，xmax为原始数据样本中的最大值。
Python实现

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
x = np.array([[1,-1,2],