28、机器学习：数据的特征处理-CSDN博客

本文链接：https://blog.csdn.net/weixin_45217685/article/details/132911494

特征处理是通过特定的方法（数学方法）将数据转化为算法要求的数据。
数值型数据：标准缩放：归一化、标准化、缺失值
类别型数据：one-hot编码
时间类型：时间的切分
1、归一化：
$X'=\frac{x-min}{max-min}$ $X^{''} = X^{'} * (m x - mi) + mi$
注：作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’
为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0。
⽬的：使得某⼀个特征对最终结果不会造成更⼤影响，每个特征值是同等的重要。
缺点：异常点对最⼤值最⼩值影响太⼤，所以这种方法鲁棒性较差，只适合传统精确小数据场景

from sklearn.preprocessing import MinMaxScaler
def mm():
    mm=MinMaxScaler(feature_range=(2, 3))###限制变换后的数据范围是[2,3]
    data=mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
    print(data)

    return None
if __name__=='__main__':
    mm()

![在这里插入图片描述](https://img-blog.csdnimg.cn/5e70575a27224c9bab05a1e8f9d74f19.png
2、标准化：
$X'=\frac{x-mean}{\sigma}$
mean是平均值， $\sigma$ 是标准差（考量数据的稳定性）,std为方差
$std=\frac{(x_1-mean)^2+(x_2-mean)^2+...+(x_n-mean)^2}{n(每个特征的样本数)}，\sigma=\sqrt{std}$
⽬的：使得某⼀个特征对最终结果不会造成更⼤影响，每个特征值是同等的重要。
对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。
在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。

from sklearn.preprocessing import StandardScaler
def stand():
    std=StandardScaler()
    data=std.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])
    print(data)

    return None
if __name__=='__main__':
    stand()

在这里插入图片描述
3、缺失值：
删除：如果每列或者行数据缺失值达到一定的比例，建议放弃整行或者整列
插补：可以通过缺失值每行或者每列的平均值、中位数来填充
pandas缺失值处理：fillna、dropna，前提是数据中的缺失值通过np.nan（float类型）表示，通过replace(‘?’,np.nan)替换缺失值为np.nan

from sklearn.impute import SimpleImputer
import numpy as np
def im():
    im=SimpleImputer(missing_values=np.nan,strategy='mean')##missing_values为数据中缺失值的表示，strategy为缺失值填补方法 
    data=im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
    print(data)
    return None
if __name__=='__main__':
    im()

在这里插入图片描述