python 数据挖掘 培训视频下利用Pandas进行数据清洗

本文详细介绍了如何使用Pandas进行数据清洗,包括检测与处理缺失值,如利用isnull检测、sum统计、dropna删除以及fillna填充。此外,还探讨了数据值替换、异常数据检测的方法,如散点图、箱线图和3σ法则。
摘要由CSDN通过智能技术生成

在许多数据分析工作中,数据中经常会有缺失数据情况。Pandas的目标之⼀就是尽量轻松地处理缺失数据。

01

检测与处理缺失值

Pandas对象的所有描述性统计默认都不包括缺失数据。对于数值数据,Pandas使用浮点值NaN表示缺失数据。

1

缺失值的检测与统计

函数isnull可以直接判断该列中的哪个数据为NaN。

【例4-1】利用isnull检测缺失值。

在Pandas中,缺失值表示为NA,它表示不可用(not available)。在统计应用中,NA数据可能是不存在的数据,或者存在却没有观察到的数据(例如数据采集中发生了问题)。当清洗数据用于分析时,最好直接对缺失数据进行分析,以判断数据采集问题或缺失数据可能导致的偏差。Python内置的None值也会被当做NA处理。

【例4-2】Series中的None值处理。

2

缺失值的统计

【例4-3】利用isnull.sum统计缺失值。

另外,通过info方法,也可以查看DataFrame每列数据的缺失情况。

【例4-4】用info方法查看DataFrame的缺失值。

02

缺失值的处理

1

删除缺失值

在缺失值的处理方法中,删除缺失值是常用的方法之一。通过dropna方法可以删除具有缺失值的行。

dropna方法的格式:

dropna(ax

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值