- 缺失值首先需要实际情况定义
- 可以采取直接删除法
- 有时候需要使用替换法或者插值法
1、 统计缺失值的数量
- 首先读取数据
- 查看数据集中缺失值的情况
- df.isnull()
- 统计每一列缺失值的数量
- np.sum(df.isnull()),其参数axis默认值为0,表示按行的方向进行统计,显示的结果就是每一列的缺失值的数量
- 统计每一行缺失值的数量
- np.sum(df.isnull(),axis = 1),表示按列的方向进行统计,显示结果就是每一行的缺失值的数量
2、 统计每行缺失率
- df.apply(lambda x: sum(x.isnull()) / len(x),axis = 0
3、删除缺失值
- 使用dropna()方法,当不设置任何参数时,默认把含有缺失值的那一行都删掉
- df.dropna(how = 'any',axis = 0),这里的参数设置就和默认值的效果一样,how = 'any'的意思是只要这一行有一个或一个以上的缺失值就把这一行删除
- df.dropna(how = 'all',axis = 0),当how = 'all'时,这一行全部都是缺失值时才把这一整行删除
- 根据某列是否有缺失值来处理数据
- df.drop(labels = ['age','gender'],axis = 1),沿着列方向判断age和gender是否有缺失值,如果一个或一个以上缺失值就删除这一列
- 根据某行的某列中是否有缺失值来处理数据
- df.dropna(subset = ['gender','age'],how = 'any'),沿行的方向,只要gender 或者 age中对应的数值有缺失值就把这一行删除
- df.dropna(subset = ['gender','age'],how = 'all'),沿行的方向,当gender 和age中对应的数值都是缺失值时就把这一行删除
4、填补缺失值
- df.age.fillna(df.age.mean()),使用age的均值去填补age列中的缺失值,比如第2、4、7行
- df.gender.fillna(df.gender.mode()[0]),使用gender的众数去填补gender 列中的缺失值
- df.gender.mode() 表示gender数值中的众数,df.gender.mode()[0] 表示如果出现多个众数就取第一个