数学建模——数据预处理

最新推荐文章于 2024-05-07 06:24:55 发布

张钰枫.

最新推荐文章于 2024-05-07 06:24:55 发布

阅读量2.5k

点赞数 5

分类专栏：数据预处理数学建模大数据分析文章标签：数学建模数据分析大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyf17887261915/article/details/132029513

版权

数学建模同时被 3 个专栏收录

2 篇文章 2 订阅

订阅专栏

数据预处理

1 篇文章 2 订阅

订阅专栏

大数据分析

1 篇文章 0 订阅

订阅专栏

一、缺失值处理

1.删除记录

删除数据缺失组，但是数据较少时慎重使用；若某个指标缺失值太多，直接指标删除

2.插补

①均值/众数插补：连续型、数值型——平均值/中位数，离散型——众数

适用赛题：缺失值占比较少，适用于对个体精度要求不大的统计数据，如人口的数量年龄、经济产业情况…

②最近邻插补（对众数插补的优化）：

适用条件：数据量较少，离散数据，空间或时间具有接近性（欧氏距离衡量）

优点：保留离散特性

缺点：精度较低，有时会引入显著的偏差

适用赛题：适用于空间或时间连续的数据，如气候站点观测数据，时间序列插值…

③样条插值法：

用分段光滑的曲线去插值，光滑意味着曲线不仅连续，还要有连续的曲率

适用赛题：零件加工，水库水流量，图像“基线漂移”，机器人轨迹等精度要求高、没有突变的数据

④回归插补：

逻辑回归、决策树、随机森林、支持向量机、K近邻算法…

适用赛题：数据量较大，缺失值与相邻数据均有逻辑关系的问题

二、异常值处理

注意“假异常”和“真异常”

1.正态分布3σ原则

数值分布在（μ-3σ,μ+3σ)中的概率为99.73%，其中μ为平均值，σ为标准差。

求解步骤：1.计算均值μ和标准差σ；2.判断每个数据值是否在（μ-3σ,μ+3σ)内，不在则为异常值。

适用题目：总体符合正态分布，例如人口数据、测量误差、生产加工质量、考试成绩等。

不适用题目：总体符合其他分布，例如公交站人数排队论符合泊松分布

2.画箱型图

求解步骤：1.数据从小到大进行排序

2.下四分位数 Q1 是排第25%的数值，上四分位数 Q3 是排第75%的数值，四分位距 IQR=Q3-Q1

3.一般设 [ Q1−1.5×IQR, Q3+1.5×IQR ] 内为正常值，区间外为异常值

适用题目：适用于各种类型的问题，例如统计分析、财务分析、市场分析等

不适用题目：数据集非常小时不是很好用，因为不够敏感；数据集非常大，绘制箱型图比较困难，且会消耗大量的计算资源

3.视为缺失值，借助缺失值的处理方法进行处理

三、数据变换

即Z Score方法，将原始数据中心化后，再按照标准差缩放

即Max-Min实现归一化处理，最后能够将数据收敛到[0,1]区间内

关注

5
点赞
踩
41

收藏

觉得还不错? 一键收藏
打赏
2
评论
数学建模——数据预处理

数据预处理的相关笔记，分为缺失值处理、异常值处理和数据变换三部分
复制链接

扫一扫

专栏目录

张钰枫. CSDN认证博客专家 CSDN认证企业博客

码龄2年

12: 原创

39万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

172: 积分

666: 粉丝

46: 获赞

13: 评论

151: 收藏

私信

关注

热门文章

分类专栏

最新评论

数学建模——数据预处理
2301_81507180: 谢谢
力扣55.跳跃游戏
CSDN-Ada助手: 恭喜您第10篇博客！标题为“力扣55.跳跃游戏”，看来您对算法题目研究得非常透彻呢！希望您能继续保持创作的热情和动力，不断进步。接下来，或许可以考虑分享一些实际项目中遇到的问题和解决方案，这样不仅可以拓宽自己的知识领域，也能让读者受益匪浅。期待您的更多精彩内容！
力扣94.二叉树的中序遍历
CSDN-Ada助手: 恭喜你写了第11篇博客，标题为“力扣94.二叉树的中序遍历”！你的持续创作让我感到非常欣慰，这篇博客内容也很有深度。不过，我认为在下一篇博客中，你可以尝试结合实际案例或者更多的图表来帮助读者更好地理解中序遍历的过程，这样会让你的博客更加生动和易懂。希望你能继续保持创作热情，期待你更多精彩的文章！
数学建模——预测类模型
张钰枫.: 这里我省略写了，其实是分成三个区间，eg:12/36/60 就是指的[0,12]数据量较少,(12,36]数据量还行，(36,+∞)数据量算比较大的了，希望我的回答能帮助解决您的问题
数学建模——预测类模型
slowdowndown: 作者您好，请问数据需求后面数字/数字/数字是什么意思呀，斜杠是或者的意思吗

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

张钰枫. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。