数学建模——数据预处理

 一、缺失值处理

1.删除记录

删除数据缺失组,但是数据较少时慎重使用;若某个指标缺失值太多,直接指标删除

2.插补

均值/众数插补:连续型、数值型——平均值/中位数,离散型——众数

适用赛题:缺失值占比较少,适用于对个体精度要求不大的统计数据,如人口的数量年龄、经济产业情况…

最近邻插补(对众数插补的优化):

适用条件:数据量较少离散数据,空间时间具有接近性(欧氏距离衡量)

优点:保留离散特性

缺点:精度较低,有时会引入显著的偏差

适用赛题:适用于空间或时间连续的数据,如气候站点观测数据,时间序列插值…

样条插值法:

分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率

适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据

回归插补:

逻辑回归、决策树、随机森林、支持向量机、K近邻算法…

适用赛题:数据量较大,缺失值与相邻数据均有逻辑关系的问题

二、异常值处理

注意“假异常”和“真异常”

1.正态分布3σ原则

数值分布在(μ-3σ,μ+3σ)中的概率为99.73%,其中μ为平均值,σ为标准差。

求解步骤:1.计算均值μ和标准差σ;2.判断每个数据值是否在(μ-3σ,μ+3σ)内,不在则为异常值。

适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。

不适用题目:总体符合其他分布,例如公交站人数排队论符合泊松分布

2.画箱型图

求解步骤:1.数据从小到大进行排序

2.下四分位数 Q1 是排第25%的数值,上四分位数 Q3 是排第75%的数值,四分位距 IQR=Q3-Q1

3.一般设 [ Q1−1.5×IQR, Q3+1.5×IQR ] 内为正常值,区间外为异常值

适用题目:适用于各种类型的问题,例如统计分析、财务分析、市场分析等

不适用题目:数据集非常小时不是很好用,因为不够敏感;数据集非常大,绘制箱型图比较困难,且会消耗大量的计算资源

3.视为缺失值,借助缺失值的处理方法进行处理

三、数据变换

Z Score方法,将原始数据中心化后,再按照标准差缩放

 

即Max-Min实现归一化处理,最后能够将数据收敛到[0,1]区间内

 

 

 

  • 5
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
数据预处理是数据科学中非常重要的一个环节,数据预处理的目的是对原始数据进行清洗、转换和集成,以便于进一步的分析和建模。数据预处理可以极大地影响最终分析和建模的结果,因此在数据预处理过程中需要仔细处理。 数据预处理进阶包括以下几个方面: 1. 数据清洗:数据清洗是数据预处理的第一步,主要是对原始数据进行检查、修复和删除不良数据,例如缺失值、异常值、重复值等。数据清洗可以提高数据质量,减少建模时的误差。 2. 特征选择:特征选择是选择最相关的特征,以便于进行建模和分析。特征选择可以减少特征的数量,提高模型的准确性和泛化能力。 3. 特征提取:特征提取是将原始数据转换为更具有代表性的特征。例如,将文本转换为词袋模型或者TF-IDF模型。特征提取可以提高模型的准确性和泛化能力。 4. 数据集成:数据集成是将来自不同数据源的数据合并成一个数据集,以便于进行分析。数据集成可以减少数据冗余,提高数据质量。 5. 数据变换:数据变换是将数据转换为适合分析的形式。例如,将连续的数值数据离散化,或者进行归一化。数据变换可以提高模型的准确性和泛化能力。 总之,数据预处理是数据科学中非常重要的一个环节。通过数据清洗、特征选择、特征提取、数据集成和数据变换等方法,可以提高数据质量,减少建模时的误差,提高模型的准确性和泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张钰枫.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值