1.判断缺失值
函数:is.na(),返回值为逻辑值,TRUE代表缺失,否则为FALSE。
函数:complete.cases(),返回值为逻辑值,与is.na()相反,FASLE代表缺失,否则为TRUE。
2.判断缺失模式
函数:md.pattern():属于mice包,返回值为数据表,结果中“1”代表没有缺失值,“0”代表存在缺失值。第一列的值代表符合其后的每一行缺失情况的样本数,例如:
x1 | x2 | x3 | |
4 | 1 | 1 | 0 |
表示有4个样本缺少了x3变量的值。
最后一列表示缺失的变量数;最后一行表示含每个变量缺失值的观测值数目之和。
函数:aggr():属于VIM包,可以根据返回的图像判断缺失情况。函数结构:
aggr(x,delimter = NULL,plot = TRUE,...)
x代表要判断的向量、矩阵或数据框;delimiter用于区分插补变量,在判断缺失模式中,参数默认忽略;plot为逻辑值,判断是否绘制图形。
3.缺失数据的处理
(1)删除缺失样本