机器学习系列文章——特征的处理与选择（归一化、标准化、降维、PCA）

最新推荐文章于 2023-10-19 09:30:00 发布

棚鱼宴

最新推荐文章于 2023-10-19 09:30:00 发布

阅读量5.7k

点赞数 6

文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_44201373/article/details/119725197

版权

一、特征处理

特征处理是通过特定的统计方法，将数据转化成算法要求的数据。其API为sklearn.preprocessing。先来看一组数据：
在这里插入图片描述
第一组中的特征1 相比于特征2而言大了几十倍，在正常处理时这些点即可视为异常点，影响统计结果分析。采用特征处理后转变为右侧的数据，可以更加方便的处理而不会产生异常值。
常见的处理方法如下：

数据类型	处理方法
数值型数据	归一化、标准化、缺失值
类别型数据	one hot编码
时间型数据	时间的切分

（一）归一化

归一化是通过对原始数据进行变换把数据映射到一定范围（默认0-1）之间。其公式为：
在这里插入图片描述
归一化实例：

# 导入特征处理api及其子库
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer
# 定义一个归一化处理函数
def mm(data):
    """归一化处理"""
    # 实例化mm
    mm=MinMaxScaler(feature_range=(2,3))
    # 调用fit_transform来处理数据
    data=mm.fit_transform(data)
    print("归一化处理后的数据为：")
    print(data)
    return None

data=[[90, 2, 10, 40], [60, 4, 15, 45

最低0.47元/天解锁文章

棚鱼宴

关注

6
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列文章——特征的处理与选择（归一化、标准化、降维、PCA）

一、特征处理特征处理是通过特定的统计方法，将数据转化成算法要求的数据。其API为sklearn.preprocessing。先来看一组数据：第一组中的特征1 相比于特征2而言大了几十倍，在正常处理时这些点即可视为异常点，影响统计结果分析。采用特征处理后转变为右侧的数据，可以更加方便的处理而不会产生异常值。常见的处理方法如下：数据类型处理方法数值型数据归一化、标准化、缺失值类别型数据one hot编码时间型数据时间的切分（一）归一化归一化是通过对原始数
复制链接

扫一扫