MATLAB实战系列(二十)-数据预处理有哪些注意事项

数据预处理是数据挖掘中的重要环节,约占70%的工作量。本文介绍了处理数据缺失、离群点、重复值的方法,如缺失值可采用重新采样或填充均值;离群点检测使用LOF算法;重复值检测通过滑动窗口与编码对比。还讨论了数据转换、采样、标准化和可视化的策略,包括数据类型的编码、不平衡数据的处理、最大值-最小值映射和相关性分析等。
摘要由CSDN通过智能技术生成

前言

机器零件的产生,要在把矿石冶炼成铁锭的基础上,再进行进一步加工,才能得到机器零件。在数据挖掘中,数据预处理就对应把矿石冶炼成铁锭的过程。数据预处理是把无法直接用于分析的脏数据进行数据清洗、数据转换、数据采样、数据标准化等操作。解决实际问题时,数据预处理可能要花费完成整体过程的70%的精力,是数据挖掘中最重要的步骤之一。


一、数据缺失问题

缺失原因

1.客观原因:体检设备坏了,整行整列缺失

2.数据未被提供:隐私数据

3.正常情况下不适用的数据:男女体检项目不同、学生工资

缺失类型

1.完全随机缺失:风把卷子刮走几张

2.不完全随机缺失(与属性有关):女生不愿意填体重

3.非随机缺失:收入复杂的人不愿填收入

处理方式(more art than science)

1.无视:对整体数据影响不大的数据

2.填数据:重新采样数据/专业知识推测/统一填值(e.g.填均值*正态分布)


二、离群点问题

1.离群点对平均值问题影响很大(e.g.最

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值