机器学习03:数据预处理

机器学习:数据预处理

数据预处理包括3个方面:特征尺度归一化、降维、特征选择。下面我们将一一介绍。

1 特征尺度归一化

在多个特征面前,我们要确保特征在相同的尺度内,也就是说,每个特征值的数量级不能相差过大,或者说,要尽量保证每个特征值的数量级一致。对于未归一化的数据集,如果我们做梯度下降,可能会出现收敛过慢的情况。
下面两幅图分别是归一化前和归一化后损失函数的状态( x 1 x_1 x1 x 2 x_2 x2分别是两个特征, 0 < x 1 < 2000 , 1 < x 2 < 5 0<x_1<2000,1<x_2<5 0<x1<20001<x2<5):
在这里插入图片描述

1.1 范围归一化

对于某个特征向量 x x x,进行范围归一化后:
x ′ = x − m i n ( x ) m a x ( x ) − m i n ( x ) \pmb{x'}=\frac{\pmb{x}-min(\pmb{x})}{max(\pmb{x})-min(\pmb{x})} xxx=max(xxx)min(xxx)xxxmin(xxx)

1.2 中心化

对于某个特征向量 x x x,进行中心化后:
x ′ = x − x ‾ \pmb{x'}=\pmb{x}-\overline{\pmb{x}} xxx=xxxxxx

1.3 标准化

对于某个特征向量 x x x,进行标准化后:
x ′ = x − x ‾ σ \pmb{x'}=\frac{\pmb{x}-\pmb{\overline{x}}}{\pmb{\sigma}} xxx=σσσxxxxxx

2 降维

主成分分析(Principal Component Analysis):
在这里插入图片描述

3 特征选择(feature selection)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值