数据处理之缺失值处理

缺失值产生的原因:1、有些信息暂时无法获取,或者获取信息的代价太大;2、有些信息是被遗漏的。如认为不重要,忘记填写等人为因素,或数据采集设备故障,存储介质故障,传输媒体故障等非人为的因素;3、属性值不存在。如未婚者的配偶姓名等。4、对数据的缺失值处理之前,进行异常值分析。 缺失值的处理,大致分为三种情况:1、删除法分为两种:(1)删除观测样本,na.omit()...
摘要由CSDN通过智能技术生成

缺失值产生的原因:

1、有些信息暂时无法获取,或者获取信息的代价太大;

2、有些信息是被遗漏的。如认为不重要,忘记填写等人为因素,或数据采集设备故障,存储介质故障,传输媒体故障等非人为的因素;

3、属性值不存在。如未婚者的配偶姓名等。

4、对数据的缺失值处理之前,进行异常值分析。

 

缺失值的处理,大致分为三种情况:

1、删除法

分为两种:

(1)删除观测样本,na.omit()或data[-p,]

数据集为:

sub = which(is.na(data$sales)) #which函数返回符合条件的观测的所在位置

data1 = data[-sub,] 删除NA值所在行

若删除两个变量中,任意一个变量为0的记录,可用 或运算符“|”

delet_na = datafile[-which(is.na(datafile$SUM_YR_1)|is.na(datafile$SUM_YR_2)),]

若删除多个条件同时成立的记录,可用 乘号*

index= ((delet_na$SUM_YR_1 == 0 & delet_na$SUM
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值