数据特征预处理

xzwyb---

已于 2023-08-10 10:18:50 修改

阅读量365

点赞数

分类专栏：机器学习文章标签： java python

于 2022-09-21 11:30:31 首次发布

本文链接：https://blog.csdn.net/weixin_51347879/article/details/126967925

版权

该博客介绍了在数据预处理阶段如何处理缺失值，通过Python的SimpleImputer库，分别使用均值、中位数、众数和常数策略填充缺失值。展示了不同填充方法对数据的影响，如均值适用于数值型数据，而中位数和众数更稳定，常数填充则可能导致数据失真。

摘要由CSDN通过智能技术生成

"""
   特征工程的数据处理：
                 1.异常数据处理（采用数据清洗）；
                        1）删除含有异常值的记录；
                        2）将异常值视为缺失值，交给缺失值处理方法来解决；
                        3）用平均值修正；
                        4）不处理
                 2.数据不平衡处理(数据增强)
                 2.1 离散数据异常，采用one-hot编码归置：以0、1表示
                 3.文本处理：词袋法、TF-IDF (将文本转换成数值法)
                 4.多项式扩展、哑编码、标准化、归一化、PCA
                 5.将均值、方差、协方差等信息作为特征属性
                 6.结合业务衍生新的属性
"""

### 空值数据填充法

import numpy as np

from sklearn.impute import SimpleImputer

# 初始数据准备
X = [
    [np.nan, 3, 4, 1],
    [2, 5, np.nan, 0],
    [6, 3, 4, 7],
    [1, 7, 2, 0]
]

X2 = [
    [2, 6, np.nan, 9],
    [np.nan, 4, 2, 9],
    [np.nan, 5, 0, 3],
    [3, 4, 0, np.nan]
]

# 创建样本处理器

iml0 = SimpleImputer(missing_values=np.nan, strategy='mean&