python 数据清洗之numpy、pandas

最新推荐文章于 2022-10-19 22:31:08 发布

xiaobaihahei

最新推荐文章于 2022-10-19 22:31:08 发布

阅读量547

点赞数

文章标签： python 数据分析字符串

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaobaihahei/article/details/116638367

版权

本文介绍了Python数据清洗过程中使用numpy和pandas的常见操作，包括读取数据、查看数据信息、去除不需要的行和列、重命名列、设置索引、字符串操作以及处理缺失值等。通过实例展示了如何高效地清洗和预处理数据。

摘要由CSDN通过智能技术生成

python 数据清洗用到两个包 numpy和pandas

Pandas的名称来自于Panel data和Python数据分析data analysis，是Python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，被作为金融数据分析工具，为时间序列分析提供了很好的支持，并于2009年底开源出来。

NumPy是Numeric Python的缩写，是Python的一种开源的数值计算扩展，可用来存储和处理大型矩阵matrix，比Python自身的嵌套列表结构要高效的多，提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库，专为进行严格的数字处理而产生。

目录
一、了解数据

二、清洗数据

去除不需要的行、列

重新命名列

重新设置索引

用字符串操作规范列

用函数规范列

删除重复数据

填充缺失值

一、了解数据

读取数据：Date = pd.read_excel(r"数据储存位置",header=XX行) # 读取数据 (header=XX行指的是把第几行作为列名

date.head() 查看前几行默认是前5行

date.tail()
查看后n行数据，默认值是5

date.shape
查看数据维数

date.columns
查看所有列名

date.info()
查看索引、数据类型和内存信息

date.describe()
查看每列数据的基本统计值，包括计数值、均值、标准差、最小
最大值、1/4、1/2、3/4分位数。

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python 数据清洗之numpy、pandas

python 数据清洗用到两个包 numpy和pandasPandas的名称来自于Panel data和Python数据分析data analysis，是Python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，被作为金融数据分析工具，为时间序列分析提供了很好的支持，并于2009年底开源出来。NumPy是Numeric Python的缩写，是Python的一种开源的数值计算扩展，可用来存储和处理大型矩阵matrix，比Python自身的嵌套列表结构要高效的多，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。