第三章16节-Pandas运用之缺失值处理

  • 缺失值首先需要实际情况定义
  • 可以采取直接删除法
  • 有时候需要使用替换法或者插值法

1、 统计缺失值的数量

  • 首先读取数据

  •  查看数据集中缺失值的情况
  • df.isnull()

  •  统计每一列缺失值的数量
  • np.sum(df.isnull()),其参数axis默认值为0,表示按行的方向进行统计,显示的结果就是每一列的缺失值的数量

  •  统计每一行缺失值的数量
  • np.sum(df.isnull(),axis = 1),表示按列的方向进行统计,显示结果就是每一行的缺失值的数量

 2、 统计每行缺失率

  • df.apply(lambda x: sum(x.isnull()) / len(x),axis = 0

3、删除缺失值

  • 使用dropna()方法,当不设置任何参数时,默认把含有缺失值的那一行都删掉

  •  df.dropna(how = 'any',axis = 0),这里的参数设置就和默认值的效果一样,how = 'any'的意思是只要这一行有一个或一个以上的缺失值就把这一行删除

  •   df.dropna(how = 'all',axis = 0),当how = 'all'时,这一行全部都是缺失值时才把这一整行删除

  •  根据某列是否有缺失值来处理数据
  •  df.drop(labels = ['age','gender'],axis = 1),沿着列方向判断age和gender是否有缺失值,如果一个或一个以上缺失值就删除这一列

  •  根据某行的某列中是否有缺失值来处理数据
  • df.dropna(subset = ['gender','age'],how = 'any'),沿行的方向,只要gender 或者 age中对应的数值有缺失值就把这一行删除

  •  df.dropna(subset = ['gender','age'],how = 'all'),沿行的方向,当gender 和age中对应的数值都是缺失值时就把这一行删除

4、填补缺失值

  • df.age.fillna(df.age.mean()),使用age的均值去填补age列中的缺失值,比如第2、4、7行

  •  df.gender.fillna(df.gender.mode()[0]),使用gender的众数去填补gender 列中的缺失值
  • df.gender.mode() 表示gender数值中的众数,df.gender.mode()[0] 表示如果出现多个众数就取第一个

 

 

 

 

 

 

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值