这就是数据分析之Pandas与数据清洗

本文详细介绍了Pandas在数据分析中的应用,包括数据清洗的关键步骤,如删除不需要的列、重命名列、去重和格式调整。文章还讨论了Series和DataFrame数据结构,以及数据导入输出、数据统计和不同类型的表合并。通过实例展示了如何利用Pandas进行数据清洗,如使用drop、rename、drop_duplicates和astype等函数。此外,还提到了数据统计和数据表合并的常见方法。
摘要由CSDN通过智能技术生成

总括

在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便。另一方面,如果我们日常的数据清理工作不是很复杂的话,你通常用几句 Pandas 代码就可以对数据进行规整。

Pandas 可以说是基于 NumPy 构建的含有更高级数据结构和分析能力的工具包。在 NumPy 中数据结构是围绕 ndarray 展开的,那么在 Pandas 中的核心数据结构是什么呢?

下面主要给你讲下 Series 和 DataFrame 这两个核心数据结构,他们分别代表着一维的序列和二维的表结构。基于这两种数据结构,Pandas 可以对数据进行导入、清洗、处理、统计和输出。

为什么要数据清洗

在这里插入图片描述
如图,我们采集到的数据,很可能有许多缺失值,异常值等,这就需要我们对这些数据进行整理,也就是数据清洗。

数据质量的准则

由于数据很多而且很杂,所以我们精确的统一规则是比较难的,所以可以将规则总结为以下 4 个关键点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猛男技术控

感谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值