导言:社会调查、无回答与缺失数据
1.无回答
(1)单位无回答:某个样本的任何一项无法获得,原因为无法接触到样本、拒访、无能力回答等
(2)项目无回答:某个或某些问题无法获得,原因为不知道、拒绝回答、不适用、没有答案等,不适用一般是在跳转时直接使用;较高的项目无回答导致的缺失,有可能导致估计偏差
2.缺失值
(1)系统自定义的缺失值:一般出现在跳转、不适用的情况下
(2)研究者自定义的缺失值:研究者根据研究的需要将数据定义为缺失;
通常情况下,小于5%的缺失值应该不会产生什么问题
3.为什么要处理无回答和缺失值
(1)单元无回答和项目无回答的比例在不断升高;
(2)(项目无回答)高比率的缺失值有可能导致估计偏差:有些缺失值的分布式有规律的,所以如果缺失值不被纳入分析的话得出的结论很有可能是错的;
(3)(项目无回答)较高比率的缺失值可能影响信效度水平:较多的缺失值会使有效的观测数量减少,从而达不到预期想要测量的量;
4.术语:
(1)个体、总体、样本
(2)均值、方差、标准差:均值表示数据的集中趋势,方差表示数据的离散趋势
(3)参数、估计量:参数是总体中某一变量的数量描述;估计量是样本中某一变量的数量描述