在学习进行缺失值处理之前,我们先来看一下什么是缺失值,为什么会出现缺失值?
缺失值 —— 是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。(来源:百度百科)
缺失值的出现是很正常的一种现象,首先我们要正视缺失值的存在,缺失值的出现一般来说有机械原因和人为原因,但在我们实际应用中,多说是我们人为的失误或错误的操作导致的缺失,缺失值的出现对于我们分析数据的过程不会产生过大的影响,但是对于数据分析的结果可能会产生致命的影响,影响数据的准确性和结果的可靠性。
pandas对象的所有描述性统计信息默认情况下是排除缺失值的。
pandas对象中表现缺失值的方式并不完美,但是它对大部分用户来说是有用的。对于数值型数据,pandas使用浮点值NaN(Not a Number来表示缺失值)。我们称NaN为容易检测到的标识值:
In :
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data
Out:
0 aardvark
1 artichoke
2 NaN
3 avocado
dtype: object
In:
string_data.isnull()
Out:
0 False
1 False
2 True
3 False
dtype: bool
在pandas中,我们采用了R语言中的编程惯例,将缺失值成为NA,意思是not available(不可用)。在统计学应用中,NA数据可以是不存在的数据或者是存在但不可观察的数据(例如在数据收集过程中出现了问题)。当清洗数据用于分析时,对缺失数据本身进行分析以确定数据收集问题或数据丢失导致的数据偏差通常很重要。
Python内建的None值在对象数组中也被当作NA处理:
In:
string_data[0] = None
string_data.isnull()
Out:
0 True
1 False
2 True
3 False
dtype: bool
pandas项目持续改善处理缺失值的内部细节,但是用户API函数,比如pandas. isnull,抽象掉了很多令人厌烦的细节。处理缺失值的相关函数列表如下:
-
dropna:根据每个标签的值是否是缺失数据来筛选轴标签,并根据允许丢失的数据量来确定阈值
-
fillna:用某些值填充缺失的数据或使用插值方法(如“ffill”或“bfill”)。
-
isnull:返回表明哪些值是缺失值的布尔值
-
notnull:isnull的反作用函数
01 过滤缺失值
有多种过滤缺失值的方法。虽然你可以使用pandas.isnull和布尔值索引手动地过滤缺失值,但dropna在过滤缺失值时是非常有用的。在Series上使用dropna,它会返回Series中所有的非空数据及其索引值:
In:
from numpy import nan as NA
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()
Out:
0 1.0
2 3.5
4 7.0
dtype: float64
上面的例子与下面的代码是等价的:
In:
data[data.notnull()]
Out:
0 1.0
2 3.5
4 7.0
dtype: float64
当处理DataFrame对象时,事情会稍微更复杂一点。你可能想要删除全部为NA或包含有NA的行或列。dropna默认情况下会删除包含缺失值的行:
In:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA]
[NA, NA, NA], [NA, 6.5, 3.]])
cleaned = data.dropna()
data
Out:
0 1 2
0 1.0 6.5 3.0
1 1.0 NaN NaN
2 NaN NaN NaN
3 NaN 6.5 3.0
In:
cleaned
Out:
0 1 2
0 1.0 6.5 3.0
传入how='all’时,将删除所有值均为NA的行:
In:
data.dropna(how='all')
Out:
0 1 2
0 1.0 6.5 3.0
1 1.0 NaN NaN
3 NaN 6.5 3.0
如果要用同样