什么是数据标准化?在Python中如何进行数据标准化?「必学」

转载:https://www.toutiao.com/i6644145067256709645/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1&timestamp=1590562159&app=news_article&utm_source=weixin&utm_medium=toutiao_android&use_new_style=1&req_id=20200527144919010014048130059ACF85&group_id=6644145067256709645

主要内容:

  • 什么是数据标准化?在Python中如何进行数据标准化?

一、Z标准化:实现中心化和正态分布;

二、Min-Max:归一化;

三、MaxAbs:最大绝对值标准化;

四、RobustScaler。

  • Python实例

z-score;

Min-Max;

MaxAbs;

RobustScaler。

数据标准化是数据预处理中非常重要的一步。在实际应用过程中,我们经常会遇到含有多种特征的数据集,这些特征常常有着不同的分布形态和区间,有着不同的量级(量纲),这很容易对我们的模型训练产生影响。而数据标准化,就是为了消除规模、特征和分布差异对模型的影响而存在。

另外,将各特征标准化之后,我们可以对其进行加权组合,从而生成新的指标,而原始数据往往不支持我们直接进行加权计算。

那么今天我们就来看一下,有哪些数据标准化的方法,以及它们分别如何在Python中实现。

一、Z标准化:实现中心化和正态分布

Z-Score标准化是基于原始数据的均值和标准差进行的标准化,其转化公式为:

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

其中,z是转化后的数据,x为转化前的数据,μ是整组数据的均值,σ是整组数据的标准差。

这种方法适合大多数类型的数据,其应用非常广泛。从公式里我们就可以看出来,转化之后其均值将变为0,而方差和标准差将变为1(考虑方差的公式),这部分如果不明白那就不妨在本子上推理一下哦。

二、Min-Max:归一化

Min-Max标准化方法会对原始数据进行线性变换,它的转换公式为:

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

很明显,当x为最大值时,会被转换为1;当x为最小值时,对应的新值为0;整组数据会分布在从0到1的区间内,而数据的分布形态并不会发生变化。

三、MaxAbs:最大绝对值标准化

在数据科学中,我们经常需要应对稀疏数据,MaxAbs方法对于稀疏数据有着良好的支持。MaxAbs标准化方法与Min-Max方法有些相似,其公式为:

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

即用每一个值除以整组数据中的绝对值的最大值,这样保留了原有数据的正负属性,且使数据落在了[-1,1]闭区间内。需要注意的是,先进行绝对值操作,然后选最大值,而不是先选择最大值,再求绝对值。我已经看到过很多文章把这里弄错了。举个例子,有一组数据[-0.01, -1, -2],如果我们先求最大值再求绝对值,别说归一化了,数据简直要钻到地缝里去了。

四、RobustScaler

有些时候,数据中会存在离群点(异常值)。这时如果我们使用z-score标准化就会导致数据很容易失去离群特征。这时我们就可以使用RobustScaler方法,它对于数据中心化和数据的缩放健壮性有着更强的参数调节能力。

Python实例

多说无益,放码过来,我们先导入必要的库、iris数据集,并进行一些必要的设置。

import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from seaborn import load_dataset
sns.set()
mpl.rcParams['font.family'] = 'sans-serif'
mpl.rcParams['font.sans-serif'] = 'SimHei'
iris = load_dataset('iris').drop('species', axis=1)
iris.head()

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

我们先观察下前两列数据的原始分布情况:

sns.jointplot(data=iris, color='m',
 x='sepal_length', 
 y='sepal_width');

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

Z-score

我们先来演示z标准化。

z_scaler = preprocessing.StandardScaler()
iris_z = z_scaler.fit_transform(iris)
iris_z = pd.DataFrame(iris_z)
sns.jointplot(data=iris_z, color='m', x=0, y=1);

可以看到,数据分布形态变化不大,但是数据收敛到了0轴周围。

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

我们看一下转换后数据的均值和标准差:

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

可以看到,虽然有一点点小误差(量级非常小),但是数据基本上是符合均值为0、标准差为1的。

Min-Max标准化

然后是Min-Max归一化方法:

mm_scaler = preprocessing.MinMaxScaler()
iris_mm = mm_scaler.fit_transform(iris)
iris_mm = pd.DataFrame(iris_mm)
sns.jointplot(data=iris_mm, color='m', x=0, y=1);

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

这次我们在保持原有数据分布特性的同时,将数据收敛到了0到1之间。

MaxAbs标准化

ma_scaler = preprocessing.MaxAbsScaler()
iris_ma = ma_scaler.fit_transform(iris)
iris_ma = pd.DataFrame(iris_ma)
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

由于iris数据集里没有负值,所以这里不能体现出[-1,1]的数据范围。我们为数据增加一些负值来看看:

iris_ma = pd.concat([iris_ma, iris_ma.applymap(lambda x: -x)])
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

果然是[-1,1]呢,不过我们这里的操作只是为了演示,没有额外的意义。

RobustScaler

r_scaler = preprocessing.RobustScaler()
iris_r = ma_scaler.fit_transform(iris)
iris_r = pd.DataFrame(iris_r)
sns.jointplot(data=iris_r, color='m', x=0, y=1);

什么是数据标准化?在Python中如何进行数据标准化?「必学」

 

嗯……看起来跟MaxAbs没什么区别,这是因为这里不存在什么异常值。这个就留给你们自己来练习一下了!

以上是使用sklearn提供的标准化工具进行数据标准化的操作,事实上,我们也完全可以自己创造一些标准化工具,实际操作起来并不难哦,大家可以尝试一下。

  • 6
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
对于Python进阶,有几个重要的主题是值得学习的: 1. 面向对象编程(Object-Oriented Programming,简称OOP):学习如何使用类和对象来组织和管理代码,以及如何利用继承、多态等特性提高代码的可复用性和灵活性。 2. 函数式编程(Functional Programming,简称FP):掌握函数式编程的基本概念和技巧,如高阶函数、lambda表达式、闭包等,以及如何使用函数式编程来提高代码的简洁性和可维护性。 3. 异常处理(Exception Handling):学习如何正确处理程序可能发生的异常情况,以提高程序的健壮性和可靠性。 4. 迭代器与生成器(Iterators and Generators):了解迭代器和生成器的概念,并学习如何使用它们来实现高效的循环操作,以及如何在处理大数据集时节省内存。 5. 标准库的深入学习:熟悉Python标准库常用模块的用法,如re、datetime、json、os等,以及它们提供的丰富功能,能够灵活运用于实际开发。 6. 文件操作与数据持久化:学习如何使用Python读写文件、处理CSV、JSON等常见的数据格式,以及如何使用数据库等技术进行数据的持久化存储。 7. 并发与多线程编程:了解并发编程的基本概念和常见问题,并学习如何使用多线程来实现并发操作,以提高程序的执行效率。 8. 调试与性能优化:学习如何使用调试工具和技巧来定位和解决程序的问题,并了解常见的性能优化技巧,以提高程序的执行速度。 以上是Python进阶学习的一些主题,希望对你有帮助。如果有任何问题,欢迎继续提问!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值