总结四——使用pandas进行数据清洗,规整、聚合与分组

前面的总结三介绍了pandas入门的知识,本文将进一步总结pandas在数据分析中常见的操作。

一、数据清洗与准备

(1)缺失值的检测

isnull()
在这里插入图片描述
在这里插入图片描述
使用any函数直接检测是否存在缺失值,如any(df.isnull()),返回True or False。

notnull:不是缺失值检测,
在这里插入图片描述

(2)处理缺失值

一般而言,遇到缺失值时,可采用的三种方法:删除法、替换法、插补法。
删除法: 当缺失的观测比例非常低(如5%以内),直接删除存在缺失值的观测,或者某些变量的缺失比例非常高时(如85%以上),直接删除这些变量。
替换法: 用某种常数直接替换那些缺失值,对于连续变量,可以使用均值或中位数替换,对于离散变量,可以使用众数替换。
插补法: 插补法是根据其他非缺失的变量或观测来预测缺失值,常见的插补法有回归插补法、K近邻插补法、拉格朗日插补法。

dropna
subset参数指定需要删除的观测中哪列包含缺失值,若指定的列没有缺失值,没有指定的列存在缺失值的观测不会删除。
how参数为’all’时,删除所有值均为缺失值的行
axis参数默认为0,删除缺失值行,设置为1则删除列
inplace参数默认为False,操作不反映到原数据集,设置为True才生效
例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
fillna:缺失值填充
inplace参数设置为True才对原数据集生效
limit参数用于前向后向填充时最大的填充范围
在这里插入图片描述

(3)重复观测的检测

duplicated:
在这里插入图片描述
在这里插入图片描述

(4)重复观测删除

drop_duplicates()
subset参数指定需要删除的观测是关于哪列存在重复值的情况下,默认为全部列
keep参数指定保留第几条重复观测,默认保留第一条,keep='last’则保留最后一条
inplace参数默认为False,设置True才对数据集操作生效
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(5)异常值处理

异常值处理一般采用2种方法,一种是n个标准差法,另一种是箱线图判别法
标准差判断公式为outlinear>|样本均值±n*样本标准差|,当n=2时,为异常值,n=3时为极端异常值。箱线图判断公式outliear>Q3+n*IQR或者outliear<Q1-n*IQR,Q3为上四分位数,Q1为下四分位数,IQR为Q3-Q1,n=1.5,为异常值,n=3,极端异常值;
两种方法选择的标准:如果数据近似正态分布,优先选标准差法,否则选箱线图法

存在异常时,一般使用删除法删除异常值(异常观测比例不大)
替换法:使用低于判别上限的最大值或高于判别下限的最小值替换、使用均值、中位数替换等。
例:

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值