数据归一化

最值归一化(normalization)

将所有数据映射到0-1之间,适用于分布有明显的边界的数据,容易受异常值点的影响
在这里插入图片描述

python实现

import numpy as np
np.random.seed(123)
X=np.random.randint(0,100,10)
print(X)
X=(X-np.min(X))/(np.max(X)-np.min(X))
print(X)
[66 92 98 17 83 57 86 97 96 47]
[0.60493827 0.92592593 1.   0.   0.81481481 0.49382716 0.85185185 0.98765432 0.97530864 0.37037037]

sklearn实现

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler,MinMaxScaler

X = load_digits()["data"]
y = load_digits()["target"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

minMaxScaler=MinMaxScaler()
minMaxScaler.fit(X_train)
X_train=minMaxScaler.transform(X_train)
X_test=minMaxScaler.transform(X_test)

均值方差归一化(standardization)

将所有数据归一化到均值为0,方差为1的分布中,适用于数据分布没有明显边界的情况
在这里插入图片描述

python实现

import numpy as np
np.random.seed(123)
X=np.random.randint(0,100,10)
print(X)
X=(X-np.mean(X))/np.std(X)
print(X)
[66 92 98 17 83 57 86 97 96 47]
[-0.31060745  0.71164492  0.94754932 -2.23716001  0.35778833 -0.66446405 0.47574053 0.90823192  0.86891452 -1.05763804]

sklearn实现

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler,MinMaxScaler

X = load_iris()["data"]
y = load_iris()["target"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

standardScaler=StandardScaler()
standardScaler.fit(X_train)
X_train=standardScaler.transform(X_train)
X_test=standardScaler.transform(X_test)

print(X_train)
print(X_test)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值