机器学习----特征预处理

song s

于 2020-03-16 17:54:52 发布

阅读量471

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/yhx_jmdx/article/details/104903817

特征预处理是机器学习中的重要步骤，包括数据标准化、归一化、正则化等多种方法。如StandardScaler用于数据标准化，MinMaxScaler进行数据归一化，Robust Scaler处理异常值，MaxAbsScaler将数据缩放到[-1,1]，还有正则化、特征二值化、缺失值处理、类别特征编码和多项式特征生成等。这些预处理技术能提高模型的训练效果。" 93214828,8305933,Lab4：log4j2日志框架使用教程,"['日志框架', 'log4j2', 'Java开发', '异常处理', '配置管理']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据的过程。
特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征。对数据进行标准化或者归一化可解决此类现象

from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
import numpy as np
import pandas as pd

data = pd.DataFrame([3, 50, 2000, 500, 3, 300.], columns=['data'])

在这里插入图片描述

1、StandardScaler数据标准化

数据标准化：是消除变量间的量纲关系，从而使数据具有可比性。通过对原始数据进行变换把数据变换到均值为0，标准差为1范围内。
公式：X’ = (x - mean)/σ

ss = StandardScaler()  #标准化数据
data['ssdata'] = ss.fit_transform(data[['data']])

在这里插入图片描述

2、数据归一化 MinMaxScaler

通过对原始数据进行变换把数据映射到（默认[0,1]）之间
之所以需要将特征规模化到一定的[0,1]范围内，是为了对付那些标准差相当小的特征并且保留下稀疏数据中的0值
公式：x’=(x-min(x))/(max(x)-min(x))

mms = MinMaxScaler(

最低0.47元/天解锁文章