Python数据集处理之数据归一化原理介绍及模块化代码实现

1. 什么是归一化

在现实生活中,我们采集到的数据会由于含义的不同,导致数据之间差别很大,例如采集车辆行驶信息时,车辆的速度、油门踏板深度、方向盘转角等都不在一个数量级,如果直接对这些原始数据进行分析,那么往往会影响最后数据分析的结果。通常我们将车辆速度这些变量称为评价指标,不同的评价指标之间往往具有不同的量纲,为了消除指标之间量纲的影响,需要进行数据归一化处理,原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价。

通常进行归一化的方法有两种:(1)最值归一化。(2)均值方差归一化

1.1 最值归一化

最值归一化适用于数据有明显边界的情况,例如考试成绩。该方法是将所有数据映射到[0,1]之间,其计算公式如下所示:
在这里插入图片描述

1.2 均值方差归一化

均值方差归一化适用性要强于最值归一化,因此,如果要对数据进行归一化操作时,建议使用均值方差归一化。该方法是将原始数据集归一化为均值为0、方差1的数据集,其计算公式如下:
在这里插入图片描述
式中,s为方差。

2. 模块化代码实现

本文依旧以鸢尾花数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值