30秒时间了解清楚pandas过滤、补全缺失值

最新推荐文章于 2024-10-02 10:53:34 发布

Python金牌大牛

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量577

点赞数

文章标签： python 数据分析 java 大数据机器学习

本文链接：https://blog.csdn.net/weixin_48272043/article/details/115207420

版权

本文介绍了pandas如何处理缺失值，包括如何过滤和补全。pandas对象默认统计时排除缺失值，使用NaN表示数值型数据的缺失，通过dropna和fillna方法进行过滤和填充。fillna支持多种填充策略，如使用常数、插值或统计值。

摘要由CSDN通过智能技术生成

在学习进行缺失值处理之前，我们先来看一下什么是缺失值，为什么会出现缺失值？

缺失值 —— 是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。（来源：百度百科）

缺失值的出现是很正常的一种现象，首先我们要正视缺失值的存在，缺失值的出现一般来说有机械原因和人为原因，但在我们实际应用中，多说是我们人为的失误或错误的操作导致的缺失，缺失值的出现对于我们分析数据的过程不会产生过大的影响，但是对于数据分析的结果可能会产生致命的影响，影响数据的准确性和结果的可靠性。

pandas对象的所有描述性统计信息默认情况下是排除缺失值的。

pandas对象中表现缺失值的方式并不完美，但是它对大部分用户来说是有用的。对于数值型数据，pandas使用浮点值NaN（Not a Number来表示缺失值）。我们称NaN为容易检测到的标识值：

In :

string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

string_data

Out:

0      aardvark
1     artichoke
2            NaN
3       avocado
dtype: object

In:

string_data.isnull()

Out:

0     False
1     False
2      True
3     False
dtype: bool

在pandas中，我们采用了R语言中的编程惯例，将缺失值成为NA，意思是not available（不可用）。在统计学应用中，NA数据可以是不存在的数据或者是存在但不可观察的数据（例如在数据收集过程中出现了问题）。当清洗数据用于分析时，对缺失数据本身进行分析以确定数据收集问题或数据丢失导致的数据偏差通常很重要。

Python内建的None值在对象数组中也被当作NA处理：

In:

string_data[0] = None

string_data.isnull()

Out:

0      True
1     False
2      True
3     False
dtype: bool

pandas项目持续改善处理缺失值的内部细节，但是用户API函数，比如pandas. isnull，抽象掉了很多令人厌烦的细节。处理缺失值的相关函数列表如下：

dropna：根据每个标签的值是否是缺失数据来筛选轴标签，并根据允许丢失的数据量来确定阈值
fillna：用某些值填充缺失的数据或使用插值方法(如“ffill”或“bfill”)。
isnull：返回表明哪些值是缺失值的布尔值
notnull：isnull的反作用函数

01 过滤缺失值

有多种过滤缺失值的方法。虽然你可以使用pandas.isnull和布尔值索引手动地过滤缺失值，但dropna在过滤缺失值时是非常有用的。在Series上使用dropna，它会返回Series中所有的非空数据及其索引值：

In:

from numpy import nan as NA

data = pd.Series([1, NA, 3.5, NA, 7])

data.dropna()

Out:

0     1.0
2     3.5
4     7.0
dtype: float64

上面的例子与下面的代码是等价的：

In:

data[data.notnull()]

Out:

0     1.0
2     3.5
4     7.0
dtype: float64

当处理DataFrame对象时，事情会稍微更复杂一点。你可能想要删除全部为NA或包含有NA的行或列。dropna默认情况下会删除包含缺失值的行：

In:

data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA]
                     [NA, NA, NA], [NA, 6.5, 3.]])

cleaned = data.dropna()

data

Out:

   0     1     2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

In:

cleaned

Out:

   0     1     2
0  1.0  6.5  3.0

传入how='all’时，将删除所有值均为NA的行：

In:

data.dropna(how='all')

Out:

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0

如果要用同样

最低0.47元/天解锁文章

Python金牌大牛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫