特征预处理

文章介绍了数据预处理中的归一化和标准化技术,包括各自的定义、转换公式以及在Python中使用sklearn库的MinMaxScaler和StandardScaler进行操作的方法。归一化将数据缩放到0-1范围内,而标准化则使数据具有0均值和1标准差,能有效减轻异常点的影响。标准化适用于大数据集,而归一化可能受异常点干扰。
摘要由CSDN通过智能技术生成

1. 定义:

通过数学函数,将数据转换为更适合模型算法的数据

2. 内容:

a.归一化

b.标准化

3. 归一化:

a. 定义:

将特殊数据归纳到 0 ~ 1 的 范围内

b. 转换公式:

x' = (x - min)/ (max - min ) [0 , 1]

x" = x'(mx - mi) + mi

mx, mi 指的是归纳的区间范围, 默认mx = 1 , mi = 0

c. api

from sklearn.preprocessing import MinMaxScaler

参数:

feature_range=(0, 1):默认归纳区间

方法:

fit

transform

fit_transform():对数据进行转换

d.归一化缺陷

1.容易受到异常点的干扰影响

2.适用于一些小型的并且正确的数据

4.标准化:

a.定义:

将数据转换为 均值为0 标准差为 1的范围内

b.转换公式:

x' = (x - mean) / 标准差

mean: 平均值

c. api:

from sklearn.preprocessing import StandardScaler

方法:

fit_transform

d. demo:

使用标准化处理数据,然后预测一下鸢尾花的数据集

e. 标准化优势:

优点: 平摊异常点造成的影响

使用范围: 数据量比较大,适合现代嘈杂大数据场景。

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
# 导入pandas
import pandas as pd


dating = pd.read_csv("./dating.txt")
# 确定好特征值
x = dating[["milage", "Liters", "Consumtime"]]

# 对数据进行归一化处理
mm = MinMaxScaler(feature_range=(2,3))
x = mm.fit_transform(x)

print(x)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小徐的记事本

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值