利用python进行数据分析—8.数据清洗与准备

引言

  在进行数据分析与建模的过程中,大量的时间都花在数据的准备上:加载、清洗、转换与重新排列。

8.1处理缺失值

  pandas中使用np.nan来表示缺失值,python内建None值在对象数组中也被当成缺失值。
在这里插入图片描述
处理缺失值的处理方法:
在这里插入图片描述

8.1过滤缺失值

  可以使用isnull()方法结合布尔值索引来手动过滤缺失值,同时,dropna在过滤缺失值中也是非常有用的。
  在Series上使用dropna会返回Series中所有的非空数据及其索引值。
在这里插入图片描述
  在DataFrame上使用dropna时,默认情况下会删除包含缺失值的行。该方法官方文档如下:

pd.DataFrame.dropna(
    self,
    axis=0,
    how='any',
    thresh=None,
    subset=None,
    inplace=False,
)
Docstring:
Remove missing values.

See the :ref:`User Guide <missing_data>` for more on which values are
considered missing, and how to work with missing data.

Parameters
----------
axis : {
   0 or 'index', 1 or 'columns'}, default 0
    Determine if rows or columns which contain missing values are
    removed.

    * 0, or 'index' : Drop rows which contain missing values.
    * 1, or 'columns' : Drop columns which contain missing value.

    .. versionchanged:: 1.0.0

       Pass tuple or list to drop on multiple axes.
       Only a single axis is allowed.

how : {
   'any', 'all'}, default 'any'
    Determine if row or column is removed from DataFrame, when we have
    at least one NA or all NA.

    * 'any' : If any NA values are present, drop that row or column.
    * 'all' : If all values are NA, drop that row or column.

thresh : int, optional
    Require that many non-NA values.
subset : array-like, optional
    Labels along other axis to consider, e.g. if you are dropping rows
    these would be a list of columns to include.
inplace : bool, default False
    If True, do operation inplace and return None.

Returns
-------
DataFrame
    DataFrame with NA entries dropped from it.

See Also
--------
DataFrame.isna: Indicate missing values.
DataFrame.not
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
利用Python进行数据分析.第三版》是一本由Wes McKinney撰写的经典编程指南。本书详细介绍了如何使用Python进行数据分析的方法和技巧,对于初学者和专业数据分析师来说都是一本重要的参考书。 这本书涵盖了Python数据分析的各个方面,包括数据获取、数据清洗数据处理、数据可视化等。作者通过详细的实例和案例,让读者了解如何使用Python进行实际的数据处理和分析工作。书还介绍了一些常用的数据分析工具和库,如NumPy、Pandas、Matplotlib等,这些工具和库对于数据分析师来说是必不可少的。 《利用Python进行数据分析.第三版》的优点有很多。首先,本书的内容系统全面,讲解了从数据获取到数据分析的整个过程。其次,书的案例和实例丰富多样,覆盖了各个领域的数据分析场景,读者可以通过实践来学习和掌握数据分析的方法和技巧。此外,书的代码示例清晰易懂,读者可以直接将其应用于实际项目。 与此同时,本书的一些章节也有一定的挑战性,对于初学者来说可能需要额外的努力和时间来理解和掌握。此外,由于本书的版本较旧,一些内容可能已经有所更新和改变,读者需要结合最新的Python数据分析库的文档来使用本书的技术和方法。 总体来说,《利用Python进行数据分析.第三版》是一本非常有价值的数据分析入门指南。无论是初学者还是专业人士,都可以从学习到丰富的知识和实践经验,对于提升数据分析能力有很大帮助。如果你对数据分析Python编程感兴趣,这本书值得一读。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值