缺失值处理

缺失值的处理
缺失值的类型分为

完全随机缺失(missing completely at random,MCAR)

指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。

随机缺失(missing at random,MAR)

指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。

完全非随机缺失(missing not at random,MNAR)

指的是数据的缺失依赖于不完全变量自身。

缺失值从缺失值的所属属性来讲可以分为单值缺失,任意缺失和单调缺失。

单值缺失

如果所有的缺失值都是同一属性,那么这种缺失成为单值缺失。

任意缺失

如果缺失值属于不同的属性,称为任意缺失。

单调缺失

对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失


处理方法


如果缺失数值在5%上下也是连续性变量的话,那么我们可以考虑使用序列平均值(也就是整个数据集当中非空数据的平均值来进行替换)
临近点附近的平均数意思就是。在缺失值附近的点用他们的非空数值,然后来计算出平均数,再进行替换,我们可以选择邻近点范围。
中间值临近点附近的中间值也是同样的道理。
线性趋势则是利用系统来进行做出预算。
线性插值使用较少,
如果数据缺少20%到30%,那么我们就建议直接舍弃,如果是小数据集,由于数据收集不易,所以建议补全
如果是分类变量,则建议使用众数。
如果是等级变量,则建议使用中位数来进行填补。
自变量完整,自变量与因变量有因果,有因果关系的,建议使用缺失值分析当中的回归分析,
如果上述要求不满足,或者你也可以嫌麻烦,直接用EM分析,但是记得一定要保存为新数据值才会生效。
我们要如何确定缺失值比例的,那就要使用缺失值分析。
如果众数和中位数的话,则需要采用描述性统计,

多重插补
多重插补法报错的时候,看看变量是不是标度
插补法需要先进行分析,查看缺失情况,可以看到具体缺失为几种模式(看y轴)
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值