第三章16节-Pandas运用之缺失值处理

最新推荐文章于 2024-07-27 12:20:46 发布

老鸭胆

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量1.3k

点赞数 4

分类专栏： python自学（学习记录）文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45441862/article/details/121090133

版权

python自学（学习记录）专栏收录该内容

28 篇文章 1 订阅

订阅专栏

缺失值首先需要实际情况定义
可以采取直接删除法
有时候需要使用替换法或者插值法

1、统计缺失值的数量

首先读取数据

查看数据集中缺失值的情况
df.isnull()

统计每一列缺失值的数量
np.sum(df.isnull())，其参数axis默认值为0，表示按行的方向进行统计，显示的结果就是每一列的缺失值的数量

统计每一行缺失值的数量
np.sum(df.isnull(),axis = 1)，表示按列的方向进行统计，显示结果就是每一行的缺失值的数量

2、统计每行缺失率

df.apply(lambda x: sum(x.isnull()) / len(x),axis = 0

3、删除缺失值

使用dropna()方法，当不设置任何参数时，默认把含有缺失值的那一行都删掉

df.dropna(how = 'any',axis = 0)，这里的参数设置就和默认值的效果一样，how = 'any'的意思是只要这一行有一个或一个以上的缺失值就把这一行删除

df.dropna(how = 'all',axis = 0)，当how = 'all'时，这一行全部都是缺失值时才把这一整行删除

根据某列是否有缺失值来处理数据
df.drop(labels = ['age','gender'],axis = 1)，沿着列方向判断age和gender是否有缺失值，如果一个或一个以上缺失值就删除这一列

根据某行的某列中是否有缺失值来处理数据
df.dropna(subset = ['gender','age'],how = 'any')，沿行的方向，只要gender 或者 age中对应的数值有缺失值就把这一行删除

df.dropna(subset = ['gender','age'],how = 'all')，沿行的方向，当gender 和age中对应的数值都是缺失值时就把这一行删除

4、填补缺失值

df.age.fillna(df.age.mean())，使用age的均值去填补age列中的缺失值，比如第2、4、7行

df.gender.fillna(df.gender.mode()[0])，使用gender的众数去填补gender 列中的缺失值
df.gender.mode() 表示gender数值中的众数，df.gender.mode()[0] 表示如果出现多个众数就取第一个

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
第三章16节-Pandas运用之缺失值处理

缺失值首先需要实际情况定义可以采取直接删除法有时候需要使用替换法或者插值法1、统计缺失值的数量首先读取数据查看数据集中缺失值的情况 df.isnull()统计每一列缺失值的数量 np.sum(df.isnull())，其参数axis默认值为0，表示按行的方向进行统计，显示的结果就是每一列的缺失值的数量统计每一行缺失值的数量 np.sum(df.isnull(),axis = 1)，表示按列的方向进行统计，显示结果就是每一行的缺失值的数量2、统计每行缺失...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。