数据预处理:数据的正态化和标准变换

本文介绍了数据正态化的重要性,特别是在数据分析、机器学习和人工智能领域的应用。文中详细阐述了如何通过偏度和峰度判断数据是否符合正态分布,并提供了处理偏态数据的指数变换、对数变换和Box-cox变换方法,以及标准化正态数据的策略。最后,强调了数据标准化并不能直接将偏态数据转化为正态分布。
摘要由CSDN通过智能技术生成

一、正态数据

正态数据的分布是一个钟型分布,数据点的分布是中间高两边低的,例如一个学校里学生的身高。特别高和特别低的都少,高度居中的人较多。如下图(其中x轴为数据的取值,y轴为对应取值的频率)
在这里插入图片描述

二、数据需要正态化的原因

很多统计学的理论,如线性回归、假设检验和参数估计等,很多地方需要数据的分布为正态。而现实中的数据不一定服从正态或者是标准正态,因此需要对数据进行正态化,才可以使用已有的一些模型。有时候,模型的表现不好,可能跟数据的预处理有很大的关系。

三、两个指标判断是否是正态

数据一般有两个指标,样本均值和方差,一个是衡量数据分布的中心位置,另一个是衡量数据分布的离散程度。而正态分布也有l两个指标,偏度和峰度,其中偏度和数据分布的对称性有关,峰度与数据分的高矮胖瘦有关。

  1. 偏度
    数据的偏度是衡量数据的分布是否是左右对称的。其中标准正态分布的偏度为零,非标准的数据分布分别称为“左偏”(偏度小于零,有极端小值)和“右偏”(偏度大于零,有极端大值)。

  2. 峰度
    数据的峰度是衡量数据分布是否是高瘦的,还是胖乎乎的。其中标准正态分布的峰度为3,非标准的数据分布分别称为“尖峰”(峰度大于3,数据点较集中于中心位置)和“厚尾”(分度小于3,数据点较分散)。

四、如何对数据正态化

数据不是标准正态分布,正是因为数据的偏度和峰度与标准正态分布的不同。因此,解决数据正态化的关键,即判定数据的偏度和峰度问题,用对应的方法进行正态化。
在这里插入图片描述

1. 偏态数据正态化(偏度)

偏态数据的正态化处理方式一般有指数变换、对数变换、Box-cox变换等,需要根据数据的不同情况进行选择。

左偏态

左偏数据:又称为负偏态,数据的分布存在极端小值,数值较大的数据点比较集中。因此需要一种方法,缩小数值较小的点之间的距离,将数值较大的数据点的距离增大。(或者是相对地缩小和放大)
在这里插入图片描述
因此,这个时候可以指数变换,或者是其他的凹函数,因为指数变换在数据点的值较大的时候,变化率更大(导数),能把数值较大的数据点的距离增大。指数变换公式: x n e w = e x o l d x_{new} = e^{x_{old}} xnew=exold,图像如下
在这里插入图片描述

例如:若数据点取值为1,2,9,10,虽然数据的原始距离相等,即 2 − 1 = 10 − 9

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值