Z-Score标准化(z-score normalization)


前言

标准化方法是一种最为常见的量纲化处理方式

最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。也叫标准差标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。

z-score标准化是将数据按比例缩放,使之落入一个特定区间。


一、z-score normalization是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、计算Z-Score标准化

1.标准差

标准差(Standard Deviation) ,数学术语,是离均差平方的算术平均数(即:方差)的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。
在这里插入图片描述

2.Z-Score标准化

z-score normalization后,所有特征的均值为0,标准差为1。
要实现z-score normalization,调整输入值如下公式所示:

在这里插入图片描述
其中j选择X矩阵中的一个特征或一列。μj为特征(j)所有值的均值,σj为特征(j)的标准差。
在这里插入图片描述
在这里插入图片描述

代码如下(示例):

def zscore_normalize_features(X):
    """
      X (ndarray): Shape (m,n) input data, m examples, n features
      X_norm (ndarray): Shape (m,n)  input normalized by column
      mu (ndarray):     Shape (n,)   mean of each feature
      sigma (ndarray):  Shape (n,)   standard deviation of each feature
    """
    # find the mean of each column/feature
    mu     = np.mean(X, axis=0)                 # mu will have shape (n,)
    # find the standard deviation of each column/feature
    sigma  = np.std(X, axis=0)                  # sigma will have shape (n,)
    # element-wise, subtract mu for that column from each example, divide by std for that column
    X_norm = (X - mu) / sigma      

    return (X_norm, mu, sigma)
 
#check our work
#from sklearn.preprocessing import scale
#scale(X_orig, axis=0, with_mean=True, with_std=True, copy=True)

代码来源于吴恩达老师机器学习

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  • 9
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: z-score标准化是一种常见的数据标准化方法,它通过将数据转换为均值为,标准差为1的标准正态分布来使得不同尺度的数据可以进行比较和分析。具体来说,z-score标准化的步骤是先计算出数据的均值和标准差,然后对每个数据点进行如下转换:(数据点-均值)/标准差。这样处理后,数据的分布就变成了标准正态分布,即均值为,标准差为1。 ### 回答2: Z分数归一化,也被称为标准化,是一种数据预处理技术,用于将不同度量尺度下的数据转换为同一度量尺度下的数据,通常用于进行数据分析和建模。该方法在统计学中被广泛应用。 Z分数归一化可以将原始数据的分布转换为平均值为0、标准差为1的正态分布。具体地,对于每个特征列,我们可以计算出该列数据的平均值mu和标准差sigma,然后对该列中的每个数据进行如下转换: z-score = (x - mu) / sigma 其中x是该列中的一个数据,“-”表示减去平均值,除以标准差。这样处理后的数据满足均值为0,标准差为1的正态分布。 Z分数归一化可以消除不同度量尺度之间的差异,使不同特征列之间具有可比较性,有利于建模和分析。此外,还可以帮助识别和去除异常值,提高建模精度。 需要注意的是,Z分数归一化假设原始数据符合正态分布,对于非正态分布的数据,需要进行适当的处理才能应用该方法。此外,Z分数归一化也不适用于具有离群值的数据集,因为离群值会相对地极端偏离平均值,可能会导致模型表现不佳。 ### 回答3: z-score normalization 又称为标准化,是一种线性转换方法,它可以将数据转换为标准正态分布的数据。这个方法可以使我们的数据更好地分析和比较,同时也可以降低误差,提高预测精度。 标准化过程主要分为以下几步: 1. 计算原始数据的平均值和标准差。 2. 将每个数据点减去平均值,再除以标准差,得到对应的z-score值。 3. 将得到的z-score值代替原始数据。 z-score标准化的公式为: z = (x-μ) / σ 其中,z表示z-score值,x表示原始数据,μ表示原始数据的平均值,σ表示原始数据的标准差。 标准化可以解决以下问题: 1. 不同的数据集合在一起,难以比较它们之间的差异性。 2. 数据集中有极值的存在,这可能会对数据分析产生误差。 3. 不同变量的单位和尺度不同,难以将它们进行比较。 标准化的优点: 1. 转换后的数据更适合于进行数据分析和可视化。 2. 标准化可以使数据更容易比较和解释。 3. 标准化可以提高模型的准确性和预测能力。 需要注意的是,z-score标准化并不适用于所有类型的数据,比如像年龄、身高这样的数据本身就有确定的尺度和单位,对它们进行标准化可能会削弱它们原本的含义。因此,我们需要在具体情况下结合数据类型和分析目的来选择是否进行标准化

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值