缺失值补充

缺失值:收集到的数据集中往往某个或某些属性的值是空白的,错误的,不符合要求的

分类:单变量缺失,多变量缺失

SPSS缺失值分析:分析 多重插补 分析模式

办法:

1.直接删除

条件:1. 整个数据集中的缺失值所占比例很小

           2. 删除后队余实际数据影响不大

缺点:数据缺失后的值不能包括原有数据的所有信息,被删除的信息中也可能存在重要的信息

2.均值插补

用调查项中有的数据的均值替换缺失值,因为回答单元只能算出一个均值,所以也称为单一均值插补法

条件:缺失情况比较少,缺失数据集较少,数据量总量较大

优点:均值插补可以减少因为数据缺失后的值不能包含原有数据所有信息,以及被删除的信息中也许存在重要的信息的影响

缺点:均值只有一个,如果数据的分布较为集中,则误差较大

3.分层插补(类均值插补)

在插补之前,利用变量的属性,对总体进行分层,使各层中的各单元尽可能的相似,然后在每一层中用该层有回答单元的均值作为替代值插补该层无回答的缺失值

分层次数越多,所获得的数据值越准确,相较于均值插补,这种办法可以从逻辑层面得到数据缺失补充,其次可以得到多种插补值,比单一均值插补满足的数据分布更切合实际

需要结合数据实际情况,从变量逻辑之间进行处理,需要辅助变量与缺失数据之间存在较强的共线性

4.随机插补

鉴于使用均值插补法会导致插补值过于集中,扭曲样本分布,我们可以从某种分布的角度入手,从这一个缺失变量的已知数据中随机抽取一些值来进行代替

随机插补也可以按照某些分类属性先对样本进行分层,然后分别在各层中随机抽取一些代替值进行插补(基于分层思维的随机插补法),会得到更好的效果

excel:CHOOSE(RANDBETWEEN)

5.回归插补

将缺失值数据样本分开后,组成不含缺失值的数据集,结合与缺失值数列的辅助变量进行建立回归模型,并用缺失值数据中的辅助变量带入回归模型进而求得缺失数据。当缺失变量与辅助变量具有较强的线性关系时,适用回归插补

SPSS: 分析 缺失值分析 勾选回归 把数据分别带入定量变量,分类变量 点击回归 勾选保存完整的数据 创建新数据集 

条件:辅助变量与确实列存在较强的共线性

缺点:回归式子只是一种推测

6.多重插补

多重插补作为一种基于重复模拟缺失值的方法,面对复杂的缺失值问题时,是最常用的方法。他的插补思想是对缺失数据集插补m次,每次插补后会生成一个完整的数据集,这样可以得到m个完整的数据集。接着对这m个完整数据集进行完全数据分析,最后综合分析这m次插补的结果,做出统计推断,其步骤主要可分为三步:插补、分析、综合 

SPSS:分析 多重插补 插补缺失数据值 导入模型中的变量 数据集名称 点击确定

7.ANN人工神经网络(插补和预测)

SPSS:删除缺失值所在的行 分析 神经网络 多层感知器 导入因变量和协变量 输出网络结构全选 勾选自变量重要性分析 补充删除的值 实用程序 评分向导 选择导出的模型 

输入层,隐藏层,输出层。其中bias为误差,颜色越深,线条越粗,表明其影响程度越高

自变量重要性,各个变量对于预测变量的影响程度,可以用于影响因素分析

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不懂编程的大学生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值