数据的质量分析
1.缺失值
数据的缺失一般是指观测的缺失和观测中变量值的缺失,两者都会造成分析结果的不准确。观测的缺失会导致由样本数据推断出的总体数据的性质和特点出现偏差。
如何处理缺失值?
1.删除
2.插补
3.均值填充
R的处理:
用作分析缺失值的数据集:
df <- data.frame(col1 = c(1,3, NA,7,5),
col2 = c(“a”, NA,“b”, “a”,“d”),
col3 = c(TRUE, FALSE, NA, TRUE,FALSE),
col4 = c(2.5, 4.2, 3.2, NA,1.4),
stringsAsFactors = TRUE)
- 查找定位缺失值:
is.na()标记出现NA的变量
is.na()返回逻辑值向量,当变量值为NA时,把该元素所在的值设置为TRUE,表明该元素是NA。
is.na(df)
col1 col2 col3 col4
[1,] FALSE FALSE FALSE FALSE
[2,] FALSE TRUE FALSE FALSE
[3,] TRUE FALSE TRUE FALSE
[4,] FALSE FALSE FALSE TRUE
[5,] FALSE FALSE FALSE FALSE
complete.cases()函数测试观测是否完整
总体观看缺失数据的位置:</