在许多数据分析工作中,数据中经常会有缺失数据情况。Pandas的目标之⼀就是尽量轻松地处理缺失数据。
01
检测与处理缺失值
Pandas对象的所有描述性统计默认都不包括缺失数据。对于数值数据,Pandas使用浮点值NaN表示缺失数据。
1
缺失值的检测与统计
函数isnull可以直接判断该列中的哪个数据为NaN。
【例4-1】利用isnull检测缺失值。
在Pandas中,缺失值表示为NA,它表示不可用(not available)。在统计应用中,NA数据可能是不存在的数据,或者存在却没有观察到的数据(例如数据采集中发生了问题)。当清洗数据用于分析时,最好直接对缺失数据进行分析,以判断数据采集问题或缺失数据可能导致的偏差。Python内置的None值也会被当做NA处理。
【例4-2】Series中的None值处理。
2
缺失值的统计
【例4-3】利用isnull.sum统计缺失值。
另外,通过info方法,也可以查看DataFrame每列数据的缺失情况。
【例4-4】用info方法查看DataFrame的缺失值。
02
缺失值的处理
1
删除缺失值
在缺失值的处理方法中,删除缺失值是常用的方法之一。通过dropna方法可以删除具有缺失值的行。
dropna方法的格式:
dropna(ax