一、 缺失值处理
R 中缺失值以NA 表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na() 它可以应用于向量、数据框等多种对象,返回逻辑值。
代码如下(示例):
> attach(data)
The following objects are masked fromdata (pos = 3):
city, price, salary
> data$salary=replace(salary,salary>5,NA)
> is.na(salary)
[1] FALSEFALSE TRUE FALSE TRUE TRUE TRUE FALSE FALSE FALSE FALSEFALSE
> sum(is.na(salary))
[1] 4
另一个判断缺失值的函数是complete.cases() ,它同样返回逻辑值向量,但值与is.na() 的相反:缺失值为FALSE ,正常数据为TRUE ,利用它来选取无缺失数据的行非常方便。
> complete.cases(data$salary)
[1] TRUE TRUE FALSE TRUE FALSE FALSEFALSE TRUE TRUE TRUE TRUE TRUE
二、判断缺失模式
存在缺失数据时,需要进一步判断数据的缺失模式,判断是否是随机的,然后才能确定处理的方法。
程序包