标题:判断数据的缺失和异常(新学知识小分享,非本人自创)
首先,通过describe来熟悉数据的相关统计量
Train_data.dascribe()
Test_data.dascribe()
通过info()来熟悉数据类型
Train_data.info()
Test_data.info()
1)查看每列的存在nan情况
Train_data.isnu11().sum()
Test_data.isnu11().sum()
nan可视化
missing = train_data.isnu11().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar
可视化看下缺省值
msno.matrix(Train_data.sample(250))
msno.bar(Train_data.sample(1000))
可视化看下缺省值
msno.matrix(Test_data.sample(250))
msno.bar(Test_data.sample(1000))
2) 查看异常值检测
Train_data.info()
Train_data[‘notRepairedDamage’].value_counts()
Train_data[‘notRepairedDamage’].replace(’-’,np.nan,inplace=True)
Train_data[‘notRepairedDamage’].value_counts()
Train_data.isnu11().sum()
Test_data[‘notRepairedDamage’].value_counts()
Test_data[‘notRepairedDamage’].replace(’-’,np.nan.inplace=True)
Train_data[“seller”].value_counts()
Train_data[“offerType”].value_counts()
de1 Train_data[“seller”]
de1 Train_data[“offerType”]
de1 Test_data[“seller”]
de1 Test_data[“offerType”]