2020-05-11

标题:判断数据的缺失和异常(新学知识小分享,非本人自创)

首先,通过describe来熟悉数据的相关统计量
Train_data.dascribe()
Test_data.dascribe()
通过info()来熟悉数据类型
Train_data.info()
Test_data.info()

1)查看每列的存在nan情况

Train_data.isnu11().sum()
Test_data.isnu11().sum()

nan可视化

missing = train_data.isnu11().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar

可视化看下缺省值

msno.matrix(Train_data.sample(250))
msno.bar(Train_data.sample(1000))

可视化看下缺省值

msno.matrix(Test_data.sample(250))
msno.bar(Test_data.sample(1000))

2) 查看异常值检测

Train_data.info()
Train_data[‘notRepairedDamage’].value_counts()
Train_data[‘notRepairedDamage’].replace(’-’,np.nan,inplace=True)
Train_data[‘notRepairedDamage’].value_counts()
Train_data.isnu11().sum()
Test_data[‘notRepairedDamage’].value_counts()
Test_data[‘notRepairedDamage’].replace(’-’,np.nan.inplace=True)
Train_data[“seller”].value_counts()
Train_data[“offerType”].value_counts()
de1 Train_data[“seller”]
de1 Train_data[“offerType”]
de1 Test_data[“seller”]
de1 Test_data[“offerType”]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值