30秒时间了解清楚pandas过滤、补全缺失值

在学习进行缺失值处理之前,我们先来看一下什么是缺失值,为什么会出现缺失值?

缺失值 —— 是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。(来源:百度百科)

缺失值的出现是很正常的一种现象,首先我们要正视缺失值的存在,缺失值的出现一般来说有机械原因和人为原因,但在我们实际应用中,多说是我们人为的失误或错误的操作导致的缺失,缺失值的出现对于我们分析数据的过程不会产生过大的影响,但是对于数据分析的结果可能会产生致命的影响,影响数据的准确性和结果的可靠性。

pandas对象的所有描述性统计信息默认情况下是排除缺失值的。

pandas对象中表现缺失值的方式并不完美,但是它对大部分用户来说是有用的。对于数值型数据,pandas使用浮点值NaN(Not a Number来表示缺失值)。我们称NaN为容易检测到的标识值:

 

In : 

 

string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

 

string_data

 

Out:

 

0      aardvark
1     artichoke
2            NaN
3       avocado
dtype: object

 

In:

 

string_data.isnull()

 

Out:

 

0     False
1     False
2      True
3     False
dtype: bool

 

在pandas中,我们采用了R语言中的编程惯例,将缺失值成为NA,意思是not available(不可用)。在统计学应用中,NA数据可以是不存在的数据或者是存在但不可观察的数据(例如在数据收集过程中出现了问题)。当清洗数据用于分析时,对缺失数据本身进行分析以确定数据收集问题或数据丢失导致的数据偏差通常很重要。

 

Python内建的None值在对象数组中也被当作NA处理:

 

In:

 

string_data[0] = None

 

string_data.isnull()

 

Out:

 

0      True
1     False
2      True
3     False
dtype: bool

 

pandas项目持续改善处理缺失值的内部细节,但是用户API函数,比如pandas. isnull,抽象掉了很多令人厌烦的细节。处理缺失值的相关函数列表如下:

 

  • dropna:根据每个标签的值是否是缺失数据来筛选轴标签,并根据允许丢失的数据量来确定阈值

  • fillna:用某些值填充缺失的数据或使用插值方法(如“ffill”或“bfill”)。

  • isnull:返回表明哪些值是缺失值的布尔值

  • notnull:isnull的反作用函数

 

 

01 过滤缺失值

 

有多种过滤缺失值的方法。虽然你可以使用pandas.isnull和布尔值索引手动地过滤缺失值,但dropna在过滤缺失值时是非常有用的。在Series上使用dropna,它会返回Series中所有的非空数据及其索引值:

 

In:

 

from numpy import nan as NA

 

data = pd.Series([1, NA, 3.5, NA, 7])

 

data.dropna()

 

Out:

 

0     1.0
2     3.5
4     7.0
dtype: float64

 

上面的例子与下面的代码是等价的:

 

In:

 

data[data.notnull()]

 

Out:

 

0     1.0
2     3.5
4     7.0
dtype: float64

 

当处理DataFrame对象时,事情会稍微更复杂一点。你可能想要删除全部为NA或包含有NA的行或列。dropna默认情况下会删除包含缺失值的行:

 

In:

 

data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA]
                     [NA, NA, NA], [NA, 6.5, 3.]])

 

cleaned = data.dropna()

 

data

 

Out:

 

   0     1     2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

 

In:

 

cleaned

 

Out:

 

   0     1     2
0  1.0  6.5  3.0

 

传入how='all’时,将删除所有值均为NA的行:

 

In:

 

data.dropna(how='all')

 

Out:

 

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0

 

如果要用同样

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值