机器学习中的标准化和归一化

        标准化和归一化是两种常用的数据预处理技术。它们用于将数据缩放到一个特定的范围,以提高机器学习模型的性能。

1. 标准化 (Standardization)

        标准化将数据转换为均值为0,标准差为1的分布。公式如下:

\boldsymbol{\mathbf{}z = \frac{x-\mu }{\sigma}}

其中:

  • z 是标准化后的值
  •  x 是原始值
  • \mu 是原始数据的均值
  • \sigma 是原始数据的标准差
    from sklearn.preprocessing import StandardScaler
    
    def test():
        # 准备数据
        data = [
            [5, 20, 10, 8],
            [10, 30, 15, 12],
            [7, 25, 13, 10]
        ]
    
        # 初始化标准化对象
        standard = StandardScaler()
    
        # 对原始特征进行标准化变换
        standardized_data = standard.fit_transform(data)
    
        # 打印标准化后的结果
        print(standardized_data)
    
    # 调用函数进行测试
    test()
    

    [[-1.13554995 -1.22474487 -1.29777137 -1.22474487]
     [ 1.29777137  1.22474487  1.13554995  1.22474487]
     [-0.16222142  0.          0.16222142  0.        ]]

2. 归一化 (Normalization)

        归一化将数据缩放到一个特定的范围(通常是0到1)。常用的归一化方法是最小-最大归一化,公式如下:

x^{'} = \frac{x-x_{min}}{x_{max}-x_{min}}

其中:

  • x^{'} 是归一化后的值
  • x 是原始值
  • x_{min} 是数据集中最小值
  • x_{max} 是数据集中最大值
    from sklearn.preprocessing import MinMaxScaler
    
    
    def test():
        # 准备数据
        data = [
            [5, 20, 10, 8],
            [10, 30, 15, 12],
            [7, 25, 13, 10]
        ]
    
        # 初始化归一化对象
        scaler = MinMaxScaler()
    
        # 对原始特征进行归一化变换
        normalized_data = scaler.fit_transform(data)
    
        # 打印归一化后的结果
        print(normalized_data)
    
    
    # 调用函数进行测试
    test()

    [[0.  0.  0.  0. ]
     [1.  1.  1.  1. ]
     [0.4 0.5 0.6 0.5]]

                这两种技术的选择取决于具体的应用场景和数据的特性。标准化通常适用于数据符合正态分布的情况,而归一化更适合于数据的范围有显著差异时。

  • 10
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值