数据特征预处理

该博客介绍了在数据预处理阶段如何处理缺失值,通过Python的SimpleImputer库,分别使用均值、中位数、众数和常数策略填充缺失值。展示了不同填充方法对数据的影响,如均值适用于数值型数据,而中位数和众数更稳定,常数填充则可能导致数据失真。
摘要由CSDN通过智能技术生成
"""
   特征工程的数据处理:
                 1.异常数据处理(采用数据清洗);
                        1)删除含有异常值的记录;
                        2)将异常值视为缺失值,交给缺失值处理方法来解决;
                        3)用平均值修正;
                        4)不处理
                 2.数据不平衡处理(数据增强)
                 2.1 离散数据异常,采用one-hot编码归置:以0、1表示
                 3.文本处理:词袋法、TF-IDF (将文本转换成数值法)
                 4.多项式扩展、哑编码、标准化、归一化、PCA
                 5.将均值、方差、协方差等信息作为特征属性
                 6.结合业务衍生新的属性
"""

### 空值数据填充法

import numpy as np

from sklearn.impute import SimpleImputer

# 初始数据准备
X = [
    [np.nan, 3, 4, 1],
    [2, 5, np.nan, 0],
    [6, 3, 4, 7],
    [1, 7, 2, 0]
]

X2 = [
    [2, 6, np.nan, 9],
    [np.nan, 4, 2, 9],
    [np.nan, 5, 0, 3],
    [3, 4, 0, np.nan]
]

# 创建样本处理器

iml0 = SimpleImputer(missing_values=np.nan, strategy='mean&

数据预处理是机器学习中非常重要的一步,它包括对原始数据进行清洗、转换和归一化等操作,以便更好地使用在模型训练中。在Python中,有许多库可以帮助我们进行数据预处理特征的操作,下面是一些常用的方法: 1. 缺失值处理:常见的处理方法包括删除缺失值、填充缺失值(如均值、中位数等)、使用插值法等。在Python中,可以使用pandas库的fillna()函数来填充缺失值。 2. 特征编码:将非数值型的特征转换成数值型特征。常用的编码方法包括独热编码(One-Hot Encoding)、标签编码(Label Encoding)等。在Python中,可以使用pandas库的get_dummies()函数进行独热编码。 3. 特征缩放:将不同范围的特征值缩放到相同的范围内,以避免某些特征对模型训练的影响过大。常用的缩放方法包括标准化(Standardization)和归一化(Normalization)。在Python中,可以使用scikit-learn库的StandardScaler和MinMaxScaler类来进行特征缩放。 4. 特征选择:选择对目标变量有较强相关性的特征。常用的特征选择方法包括相关系数、方差阈值、递归特征消除等。在Python中,可以使用scikit-learn库的SelectKBest和RFE等类来进行特征选择。 5. 特征降维:将高维度的特征转换为低维度的特征,以减少特征数量和计算复杂度。常用的降维方法包括主成分分析(PCA)和线性判别分析(LDA)。在Python中,可以使用scikit-learn库的PCA和LDA类来进行特征降维。 这些是数据预处理特征的常见方法,在实际应用中根据具体情况选择合适的方法进行处理。希望对你有所帮助!如果还有其他问题,请继续提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值