文章目录
首先要确定文件中用什么来表示缺失值,常用的有""、‘NaT’、‘nan’,‘null’,那该怎么确定呢?
以"“为例,
如果查找到”",表明表格中以""表示缺失值,为了便于后续的缺失值统计与填充,需要将’'转换成np.NaN
data.replace('', np.NaN, inplace=True)
其他同理
data.replace("NaT", np.NaN, inplace=True)
data.replace("nan", np.NaN, inplace=True)
data.replace("null", np.NaN, inplace=True)
接下来就可以使用pandas中对缺失值进行操作了
-
统计缺失值
# 统计data里每一列是否有空值: data.isnull().any() # 统计data里每一列空值的个数: data.isnull().any().sum()
-
查看列的数据格式
data[col].dtype
-
填充缺失值
缺失值填充一般不会如下填充,data.fillna(0)
因为填充要分为连续型变量缺失还是类别型变量缺失,需要根据缺失比例,删除一部分,剩下的在针对是什么类型的变量分别采取措施进行填充
具体可以参考该案例