机器学习之数据预处理(标准化处理、归一化、二值化、独热编码、标记编码)

数据预处理是机器学习的重要步骤,包括均值移除、范围缩放、归一化、二值化和独热编码等技术。均值移除使特征均值为0,范围缩放确保数值在特定范围内,归一化则保持特征尺度一致。二值化将数据简化为0和1,独热编码用于处理类别变量,减少稀疏数据的维度。
摘要由CSDN通过智能技术生成

数据预处理

机器是看不懂绝大部分原始数据的,为了让让机器看懂,需要将原始数据进行预处理。

引入模块和数据:

import numpy as np
from sklearn import preprocessing

data = np.array([[3, -1.5, 2, -5.4],
                 [0, 4, -0.3, 2.1],
                 [1, 3.3, -1.9, -4.3]])  # 原始数据矩阵 shape=(3,4)

最常用的数据预处理技术:

1. 均值移除(Mean removal)/ 标准化处理

把每个特征的平均值移除,以保证特征均值为0(即标准化处理),这样做可以消除特征彼此间的偏差,从而使数据具有可比性。

data_standardized=preprocessing.scale(data)
print ("原始data\n",data)
print ("\n经过标准化处理的data\n",data_standardized)
print ("\n原始:mean = ",data.mean(axis=0))
print ("\n经过标准化处理:mean = ",data_standardized.mean(axis=0))
# 或者:print ("\n经过标准化处理:mean = ",np.mean(data_standardized,axis=0))
print ("\n原始:std deviation = ",data.std(axis=0))
print ("\n进过标准化处理:std deviation = ",data_standardized.std(axis=0))

代码运行结果:

原始data
 [[ 3.  -1.5  2.  -5.4]
 [ 0.   4.  -0.3  2.1]
 [ 1.   3.3 -1.9 -4.3]]

经过标准化处理的data
 [[ 1.33630621 -1.40451644  1.29110641 -0.86687558]
 [-1.06904497  0.84543708 -0.14577008  1.40111286]
 [-0.26726124  0.55907936 -1.14533633 -0.53423728]]

原始:mean =  [ 1.333
  • 9
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值