数据归一化

最新推荐文章于 2024-02-04 17:52:43 发布

lowl

最新推荐文章于 2024-02-04 17:52:43 发布

阅读量234

点赞数

分类专栏： python 数据文章标签： python 机器学习大数据人工智能数据分析

本文链接：https://blog.csdn.net/weixin_48629412/article/details/108361634

版权

python 同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

数据

2 篇文章 0 订阅

订阅专栏

最值归一化（normalization）

将所有数据映射到0-1之间，适用于分布有明显的边界的数据，容易受异常值点的影响
在这里插入图片描述

python实现

import numpy as np
np.random.seed(123)
X=np.random.randint(0,100,10)
print(X)
X=(X-np.min(X))/(np.max(X)-np.min(X))
print(X)

[66 92 98 17 83 57 86 97 96 47]
[0.60493827 0.92592593 1.   0.   0.81481481 0.49382716 0.85185185 0.98765432 0.97530864 0.37037037]

sklearn实现

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler,MinMaxScaler

X = load_digits()["data"]
y = load_digits()["target"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

minMaxScaler=MinMaxScaler()
minMaxScaler.fit(X_train)
X_train=minMaxScaler.transform(X_train)
X_test=minMaxScaler.transform(X_test)

均值方差归一化（standardization）

将所有数据归一化到均值为0，方差为1的分布中，适用于数据分布没有明显边界的情况
在这里插入图片描述

python实现

import numpy as np
np.random.seed(123)
X=np.random.randint(0,100,10)
print(X)
X=(X-np.mean(X))/np.std(X)
print(X)

[66 92 98 17 83 57 86 97 96 47]
[-0.31060745  0.71164492  0.94754932 -2.23716001  0.35778833 -0.66446405 0.47574053 0.90823192  0.86891452 -1.05763804]

sklearn实现

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler,MinMaxScaler

X = load_iris()["data"]
y = load_iris()["target"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

standardScaler=StandardScaler()
standardScaler.fit(X_train)
X_train=standardScaler.transform(X_train)
X_test=standardScaler.transform(X_test)

print(X_train)
print(X_test)

lowl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据归一化

导入MinMaxScalerfrom sklearn.preprocessing import MinMaxScaler最大最小归一化minMaxScaler = MinMaxScaler()train_data = minMaxScaler.fit_transform(df)
复制链接

扫一扫