特征预处理

小徐的记事本

于 2023-03-01 00:47:11 发布

阅读量36

点赞数

分类专栏： # Python 文章标签： python 机器学习开发语言 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51332399/article/details/129179011

版权

Python 专栏收录该内容

61 篇文章 0 订阅

订阅专栏

文章介绍了数据预处理中的归一化和标准化技术，包括各自的定义、转换公式以及在Python中使用sklearn库的MinMaxScaler和StandardScaler进行操作的方法。归一化将数据缩放到0-1范围内，而标准化则使数据具有0均值和1标准差，能有效减轻异常点的影响。标准化适用于大数据集，而归一化可能受异常点干扰。

摘要由CSDN通过智能技术生成

1. 定义：

通过数学函数,将数据转换为更适合模型算法的数据

2. 内容：

a.归一化

b.标准化

3. 归一化：

a. 定义：

将特殊数据归纳到 0 ~ 1 的范围内

b. 转换公式：

x' = (x - min)/ (max - min ) [0 , 1]

x" = x'(mx - mi) + mi

mx, mi 指的是归纳的区间范围，默认mx = 1 , mi = 0

c. api

from sklearn.preprocessing import MinMaxScaler

参数：

feature_range=(0, 1)：默认归纳区间

方法：

fit

transform

fit_transform():对数据进行转换

d.归一化缺陷

1.容易受到异常点的干扰影响

2.适用于一些小型的并且正确的数据

4.标准化：

a.定义：

将数据转换为均值为0 标准差为 1的范围内

b.转换公式：

x' = (x - mean) / 标准差

mean：平均值

c. api:

from sklearn.preprocessing import StandardScaler

方法：

fit_transform

d. demo:

使用标准化处理数据，然后预测一下鸢尾花的数据集

e. 标准化优势：

优点：平摊异常点造成的影响

使用范围：数据量比较大，适合现代嘈杂大数据场景。

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
# 导入pandas
import pandas as pd


dating = pd.read_csv("./dating.txt")
# 确定好特征值
x = dating[["milage", "Liters", "Consumtime"]]

# 对数据进行归一化处理
mm = MinMaxScaler(feature_range=(2,3))
x = mm.fit_transform(x)

print(x)

小徐的记事本

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小徐的记事本 CSDN认证博客专家 CSDN认证企业博客

码龄4年

598: 原创

73万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

6140: 积分

174: 粉丝

194: 获赞

9: 评论

151: 收藏

私信

关注

热门文章

分类专栏

最新评论

项目十六：TCP在线词典
小徐的记事本: time_t time(time_t *t); 函数说明：此函数会返回从公元1970年1月1日的UTC时间从0时0分0秒算起到现在所经过的秒数(即格林尼治时间1970年1月1日00:00:00到当前时刻的时长，时长单位是秒)。如果t并非空指针的话，此函数也会将返回值存在t指针所指的内存。返回值：成功则返回秒数，失败则返回((time_t)-1)值，错误原因存于error中。从声明中可以看出，time()函数返回值的数据类型是time_t。传递给time()函数的参数是指向time_t数据类型的指针。
项目十六：TCP在线词典
小徐的记事本: Table: usr +------+----------+ | name | pass | +------+----------+ | user1| password1| | user2| password2| | user3| password3| +------+----------+ Table: record +------+---------------------+---------+ | name | date | word | +------+---------------------+---------+ | user1| 2023-08-04 12:30:15 | apple | | user2| 2023-08-04 13:45:22 | orange| | user1| 2023-08-04 14:10:55 | banana| | user3| 2023-08-04 15:20:33 | mango | +------+---------------------+---------+
智能物流仓储项目（七）——SPI数码管驱动程序以及应用程序编写
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616765697?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
项目五：智慧家庭
小徐的记事本: https://blog.csdn.net/qq_24835087/article/details/104783990
项目四：linux QT WIFI连接工具
小徐的记事本: https://blog.csdn.net/qq_24835087/article/details/104783990

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小徐的记事本 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。